ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI

Ukuran: px
Mulai penontonan dengan halaman:

Download "ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI"

Transkripsi

1 ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi Teknik Informatika Oleh: Yenni Tresnawati PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS SANATA DHARMA YOGYAKARTA 2017 i

2 SENTIMENT ANALYSIS OF TWITTER USING AGGLOMERATIVE HIERARCHICAL CLUSTERING A THESIS Presented as Partial Fulfillment of Requirements to Obtain Sarjana Komputer Degree in Informatics Engineering Department By : Yenni Tresnawati INFORMATICS ENGINEERING STUDY PROGRAM INFORMATICS ENGINEERING DEPARTMENT FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY YOGYAKARTA 2017 ii

3 iii

4 iv

5 HALAMAN PERSEMBAHAN Serahkaan segala kekhawatiran mu kepada-nya, sebab Ia yang memelihara kamu - 1 Petrus 5 : 7 - Dan segala sesuatu yang kamu lakukan dengan perkatan atau perbuatan, lakukan semuanya itu dalam nama Tuhan Yesus, sambil mengucap syukur oleh Dia kepada Allah, Bapa kita - Kolose 3:17 - Skripsi ini saya persembahkan untuk : Tuhan Yesus Kristus, Bunda Maria, Keluarga tercinta, dosen dan teman - teman terkasih, Terima kasih sudah memberikan semangat, GBU! v

6 vi

7 vii

8 INTISARI Twitter merupakan salah satu situs microblogging memungkinkan penggunanya untuk menulis tentang berbagai opini, komentar, dan berita yang membahas isu-isu yang tejadi pada saat ini. Banyak pengguna yang melakukan posting pendapat mereka akan sebuah produk atau layanan yang mereka gunakan. Hal tersebut dapat digunakan sebagai sumber data untuk menilai sentimen pada Twitter. Cara pengelompokkan emosi secara otomatis dapat digunakan, salah satunya menggunakan Agglomerative Hierarchical Clustering. Tujuan dari penelitian ini adalah membangun sistem yang secara otomatis mampu mengelompokkan emosi setiap tweet, dan mengetahui tingkat akurasi pengelompokkan. Tahapan proses dimulai dari preprocessing, terdapat beberapa proses yaitu tokenizing, stopword, stemming, pembobotan kata, serta normalisasi, selanjutnya dapat diolah menggunakan Agglomerative Hierarchical Clustering. Proses clustering terdiri dari, menghitung matriks jarak antar data, mencari jarak terdekat, menggabungkan menjadi satu cluster, memperbaharui matriks hingga semua data menjadi satu cluster. Setelah itu melakukan perhitungan akurasi menggunakan confusion matrix. Selanjutnya untuk melihat kesesuaian sistem yang dibuat, maka dimasukkan data baru yang diproses dengan sistem, lalu dapat menentukan data tergolong salah satu jenis emosi. Dari penelitian yang telah dilakukan, didapatkan total data tweet sebanyak 500 data serta jumlah cluster terbagi menjadi lima yaitu cinta, marah, sedih, senang, dan takut. Hasil penelitian analisis sentimen pada twitter dapat berjalan dengan baik dengan akurasi 81,6% untuk jumlah frekuensi kata unik maksimal 85 dan kata unik minimal 2 dengan melakukan normalisasi menggunakan Z-Score, perhitungan jarak menggunakan Cosine Similarity serta metode AHC Average Linkage. Kata Kunci : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine similarity, Euclidean Distance, Z-Score, Min-Max, Confusion Matrix viii

9 ABSTRACT Twitter is one of the site microblogging that allows users to write about various opinion, comments, and news that discussing issues that are happening at this time. Many users post their opinions on a product or service they use. It can be used as a data source to assess sentiment on Twitter. Automatic grouping of emotions can be used, one of them is using agglomerative hierarchical clustering. The purpose of this research is to build a system that automatically able to group the emotions of every tweet, and know the level of accuracy of grouping. Stages of the process starts from preprocessing, there are several processes that are tokenizing, stopword, stemming, word weighting, and normalization, then can be processed using Agglomerative Hierarchical Clustering. The clustering process consists of, calculating the distance matrix between data, finding the closest distance, merging into one cluster, updating the matrix until all the data into one cluster. After that perform the calculation of accuracy using confusion matrix. Next to see the suitability of the system created, then inserted new data processed with the system, and then can determine the data belong to one type of emotion. From the research that has been done, got the total data tweet as much as 500 data and the number of cluster is divided into five clusters that is love, angry, sad, happy, and afraid. The results of sentimental analysis on twitter can run well with an accuracy of 81.6% for the maximum number of unique word of 85 and minimum number of unique word of at least 2 by normalizing using Z-Score, Cosine Similarity distance and AHC Average Linkage method. Keyword : Tweet, Agglomearive Hierarchical Clustering, Cluster, Cosine similarity, Euclidean Distance, Z-Score, Min-Max, Confusion Matrix ix

10 KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Tuhan Yesus Kristus atas berkat yang diberikan dalam penyusunan Skripsi ini sehingga semuanya dapat berjalan dengan baik dan lancar. Skripsi ini merupakan salah satu syarat mahasiswa untuk mendapatkan gelar S- 1 pada Prodi Teknik Informatika, Fakultas Sains dan Teknologi, Universitas Sanata Dharma Yogyakarta. Berkat bimbingan dan dukungan dari berbagai pihak, Skripsi ini dapat terselesaikan. Pada kesempatan ini dengan segenap kerendahan hati penulis menyampaikan rasa terima kasih kepada : 1. Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D selaku Dekan Fakultas Sains dan Teknologi Universitas Sanata Dharma Yogyakarta. 2. Dr. C. Kuntoro Adi, S.J., M.A.,M.Sc., selaku Dosen Pembimbing Skripsi, yang dengan sabar memberi arahan, bimbingan, serta waktunya kepada penulis dalam pembuatan Skripsi. 3. Heri Bertus S.Pd.,M.Si, Asna Nuraini,S.Ag, Millavenia Pusparini, Krisna Wahyu Tri Anugrah selaku keluarga penulis yang senantiasa mendoakan, memberikan motivasi dan pengorbanannya baik dari segi moril, materi kepada penulis sehingga penulis dapat menyelesaikan Skripsi ini. 4. Ian Arisaputra yang selalu mendukung, memberikan semangat serta menjadi pendengar setiap cerita suka-duka yang penulis rasakan dalam proses pembuatan skripsi hingga dapat menyelesaikan skripsi ini. 5. Ronni, Ratri, Rusdy, Nindia, Bella, Kak Agung, Kak Dion, Kak Ary serta teman teman Teknik Informatika Universitas Sanata Dharma khususnya angkatan 2013 dan teman penulis yang tidak dapat disebutkan satu per satu yang telah mendukung penulis dalam menyelesaikan Skripsi ini. x

11 xi

12 DAFTAR ISI ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING... i SENTIMENT ANALYSIS OF TWITTER... ii USING AGGLOMERATIVE HIERARCHICAL CLUSTERING... ii HALAMAN PERSETUJUAN PEMBIMBING... Error! Bookmark not defined. ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING... Error! Bookmark not defined. HALAMAN PENGESAHAN... iii ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN PENDEKATAN AGGLOMERATIVE HIERARCHICAL CLUSTERING... Error! Bookmark not defined. HALAMAN PERSEMBAHAN... iv PERNYATAAN KEASLIAN KARYA... Error! Bookmark not defined. LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS... Error! Bookmark not defined. INTISARI... viii ABSTRACT... ix KATA PENGANTAR... x DAFTAR ISI... xii DAFTAR TABEL... xv DAFTAR GAMBAR... xvii xii

13 BAB I... 1 PENDAHULUAN Latar Belakang Rumusan Masalah Tujuan Penelitian Manfaat Luaran Batasan Masalah Sistematika Penulisan... 4 BAB II... 6 LANDASAN TEORI Analisis Sentimen Emosi Information Retrieval Euclidean Distance Cosine Similarity Agglomerative Hierarchical Clustering Confusion Matriks BAB III METODE PENELITIAN Data Kebutuhan Sistem Tahapan Penelitian Desain Interface xiii

14 3.5 Perancangan Struktur Data Skenario Sistem Gambaran Umum Sistem Desain Pengujian BAB IV HASIL DAN ANALISIS HASIL Implementasi Hasil & Analisis Hasil User Interface BAB V PENUTUP Kesimpulan Saran LAMPIRAN Uji Validitas Sistem menggunakan 15 data Tabel xiv

15 DAFTAR TABEL Tabel 2. 1 Kosa Kata Emosi... 8 Tabel 2. 2 Tabel awalan-akhiran Tabel 2. 3 Aturan peluruhan kata dasar Tabel 2. 4 Contoh Data Tabel 2. 5 Similarity Matriks Tabel 2. 6 Matriks Jarak Tabel 2. 7 Matriks Jarak pertama Single Linkage Tabel 2. 8 Matriks Jarak kedua Single Linkage Tabel 2. 9 Matriks jarak pertama Complete Linkage Tabel Matriks Jarak kedua Complete Linkage Tabel Matriks Jarak pertama Average Linkage Tabel Matriks Jarak kedua Average Linkage Tabel Tabel Confusion Matriks Tabel 3. 1 Tabel menghitung df Tabel 3. 2 idf Tabel 3. 3 Hitung Wij Tweet Cinta Tabel 3. 4 Hitung Wij Tweet Senang Tabel 3. 5 Hitung Wij Tweet Marah Tabel 3. 6 Hitung Wij Tweet Sedih Tabel 3. 7 Hitung Wij tweet takut Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan Tabel 3. 9 Tabel contoh data setelah penggabungan Tabel Tabel Contoh data pembobotan Tabel Tabel Min-max Tabel Tabel data hasil normalisasi min - max Tabel Tabel Rata - Rata Tabel Tabel Standar Deviasi xv

16 Tabel Hasil Normalisasi Zscore Tabel Tabel hasil matriks jarak dari normalisasi min - max Tabel Hasil matriks jarak normalisasi Z-Score Tabel Hasil max cluster 5 single linkage- Z-Score Tabel Hasil max cluster 5 complete linkage- Z-Score Tabel Hasil max cluster 5 average linkage- Z-Score Tabel Hasil max cluster 5 single linkage- Min - Max Tabel Hasil max cluster 5 complete linkage- Min - Max Tabel Hasil max cluster 5 average linkage- Min - Max Tabel Tabel perbandingan cluster hasil prediksi dan label aktual Tabel Tabel Confusion matriks Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas bawah = Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan batas bawah = Tabel 4. 4 Confusion matrix data normalisasi min max average linkage Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas bawah = Tabel 4. 6 Confusion matrix data normalisasi z-score average linkage xvi

17 DAFTAR GAMBAR Gambar 2. 1 Dendrogram Gambar 2. 2 Dendrogram Single linkage Gambar 2. 3 Dendrogram Complete Linkage Gambar 2. 4 Dendrogram average linkage Gambar 2. 5 Flowchart AHC Gambar 3. 1 Tweet Cinta Gambar 3. 2Tweet Senang Gambar 3. 3 Tweet Marah Gambar 3. 4 Tweet Takut Gambar 3. 5 Tweet Sedih Gambar 3. 6 Desain Interface Gambar 3. 7 Block Diagram Gambar 3. 8 Tokenizing tweet cinta Gambar 3. 9 Tokenizing tweet senang Gambar Tokenizing tweet marah Gambar Tokenizing tweet takut Gambar Tokenizing tweet sedih Gambar Stopword tweet cinta Gambar Stopword tweet senang Gambar Stopword tweet marah Gambar Stopword tweet sedih Gambar Stopword tweet takut Gambar Stemming tweet cinta Gambar Stemming tweet senang Gambar Stemming tweet marah Gambar Stemming tweet sedih xvii

18 Gambar Stemming tweet takut Gambar TF tweet cinta Gambar TF tweet senang Gambar TF tweet marah Gambar TF tweet sedih Gambar TF tweet takut Gambar Data min max Single linkage Gambar Data min max Complete linkage Gambar Data min max average linkage Gambar Source code AHC min max Gambar Data Z-Score Single linkage Gambar Data Z-Score Complete linkage Gambar Data Z-Score Average linkage Gambar Source code AHC Z-Score Gambar 4. 1 Kumpulan Data Gambar 4. 2 Contoh Data Gambar 4. 3 Source code Tokenizing Gambar 4. 4 Source code Stopword Gambar 4. 5 Source code Stemming Gambar 4. 6 Kamus Kata Sinonim Gambar 4. 7 Source code Penanganan Sinonim Gambar 4. 8 Source code Pembobotan Gambar 4. 9 Source code Normalisasi Min Max Gambar Source code Normalisasi Z-Score Gambar Source code Hitung Jarak Euclidean Gambar Source code Hitung Jarak Cosine Gambar Source code AHC Gambar Gambar Output Hasil Gambar Source code Confusion Matrix... Error! Bookmark not defined. xviii

19 Gambar Hasil Implementasi Confusion Matrix Gambar Contoh Tweet Uji Gambar Hasil Tweet Uji Gambar Grafik percobaan tanpa normalisasi Gambar Dendrogram data tanpa normalisasi average linkage Gambar Grafik percobaan normalisasi min max Gambar Dendrogram data normalisasi min max average linkage Gambar Grafik percobaan normalisasi z-score Gambar Dendrogram data normalisasi z-score average linkage Gambar Grafik percobaan menggunakan batas atas=85 dan batas bawah = Gambar User Interface Sistem xix

20 BAB I PENDAHULUAN 1.1 Latar Belakang Pada saat ini situs microblogging telah menjadi alat komunikasi yang sangat populer di kalangan pengguna internet. Microblogging merupakan suatu layanan media social yang memungkinkan pengguna mem-publish pesan pendek berupa opini, komentar, berita dalam karakter terbatas (kurang dari 200 karakter). Contoh layanan microblogging yaitu Twitter, Plurk, Jaiku, Posterous, Pownce, Kronologger, Koprol, Moofmill, dan Tumblr. Menurut data yang dirilis Twitter, pada tahun 2012 Indonesia menjadi negara dengan pengguna Twitter terbesar kelima di dunia (Tempo,2012). Twitter memungkinkan pengguna untuk berbagi pesan menggunakan teks pendek disebut Tweet. Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu hal, baik memuji ataupun mencela. Emosi dapat dikelompokkan menjadi emosi positif dan emosi negatif. Emosi manusia dapat dikategorikan menjadi lima emosi dasar yaitu cinta, senang, sedih, marah, dan takut. Emosi cinta dan senang merupakan emosi positif. Emosi sedih, marah, dan takut merupakan emosi negatif (Shaver & Fraley, 2001) Analisa mengenai tweet emosi para pengguna twitter disebut sebagai analisa opini atau sentimen (opinion analysis atau sentimen analysis). Analisis sentimen dilakukan untuk melihat pendapat atau kecenderungan opini terhadap sebuah masalah atau objek oleh seseorang, apakah cenderung beropini negatif atau positif. Dari hasil survey terhadap lebih dari 2000 orang Amerika dewasa, diketahui 81% melakukan penelitian terhadap suatu produk secara online setiap hari. Review terhadap rumah makan, hotel, agen perjalanan wisata, dan dokter di internet dapat meningkatkan 1

21 2 penjualan antara 73% sampai dengan 87%, pelanggan bersedia membayar lebih sebesar 20% sampai 99% terhadap review di internet yang mendapatkan bintang 5 daripada bintang 4 (Pang & Lee,2008). Pengaruh dan manfaat dari sentimen sedemikian besar sehingga penelitian ataupun aplikasi mengenai analisis sentimen berkembang sangat pesat. Terdapat kurang lebih perusahaan di Amerika yang fokus pada layanan analisis sentiment (Liu, 2012). Faktor keuntungan tersebut mendorong perlunya dilakukan penelitian analisis sentimen terhadap tweet berbahasa Indonesia. Dengan cara manual, analisa sentimen bisa saja dilakukan. Misalnya memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara manual tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan terus mengalir. Disinilah peranan text mining, yang secara otomatis dapat mengolah kata. Pada text mining terdapat beberapa proses yaitu tokenizing, stopword, stemming, dan pembobotan kata (Liu, 2010). Setelah melakukan text mining, diperlukan normalisasi. Setelah melakukan normalisasi, dilakukan penggolongan atau clustering pada setiap tweet, salah satunya menggunakan metode Agglomeartive Hierarchical Clustering. Contoh kasus yang telah diselesaikan menggunakan metode Agglomerative Hierarchical Clustering adalah aplikasi automated text integration, dimana pada penelitian ini menghasilkan cluster yang baik. Dari hasil survei terhadap 100 orang responden, sebanyak 78% responden mengatakan bahwa integrasi dokumen yang dihasilkan telah benar (Budhi,Rahardjo,Taufik, 2008). Sehingga dengan melakukan penelitian menggunakan metode Agglomerative Hierarchical Clustering dapat mengetahui tingkat akurasi serta efisien untuk menyelesaikan masalah clustering data twitter berdasarkan emosi. Penelitian mengenai analisis sentimen pernah dilakukan yaitu untuk mengelompokkan dokumen bahasa Indonesia menggunakan pendekatan Support Vector Machine. Pada penelitian ini data yang digunakan didapat dengan crawling pada Twitter. Akurasi menggunakan Support Vector Machine sebesar 73.07% (Nur & Santika, 2011).

22 3 Salah satu faktor yang mempengaruhi agar fitur klasifikasi memberikan hasil yang maksimal adalah pada tahap preprocessing data tweet dilakukan filtering dengan menghapus kata-kata yang tidak ada di KBBI dan dilakukan proses stemming, sehingga hanya berupa kumpulan kata dasar (Nur & Santika, 2011). Berdasarkan penelitian yang telah ada sebelumnya, penelitan ini mencoba melakukan analisis sentimen dengan mengklasifikasi data twitter berbahasa Indonesia. Data tersebut akan diproses dengan text mining untuk menghindari data yang kurang sempurna kemudian mengelompokkan data tweet berdasarkan emosi ke dalam lima cluster yaitu senang, takut, sedih, marah, cinta. Pengelompokkan ini menggunakan algoritma Agglomerative Hierarchical Clustering. 1.2 Rumusan Masalah Berdasarkan Latar Belakang yang telah dikemukakan diatas, maka permasalahan yang akan dibahas dalam penelitian ini, yaitu : 1. Bagaimana pendekatan Agglomerative Hierarchical Clustering mampu mengelompokkan emosi setiap tweet dengan baik? 2. Berapakah tingkat akurasi analisis sentimen twitter menggunakan pendekatan Agglomerative Hierarchical Clustering? 1.3 Tujuan Penelitian Tujuan dari penelitian ini adalah membangun sistem yang secara otomatis mampu mengelompokkan emosi setiap tweet menggunakan Agglomerative Hierarchical Clustering dan mengetahui tingkat akurasi pengelompokkan.

23 4 1.4 Manfaat Manfaat yang diberikan pada penelitian ini, yaitu : 1. Dapat membantu menganalisis sentimen pada twitter dengan metode Agglomerative Hierarchical Clustering. 2. Menjadi referensi bagi penelitian penelitian berikutnya yang relevan dengan kasus analisis sentimen twitter. 1.5 Luaran Luaran yang diharapkan pada penelitian ini berupa suatu sistem yang secara otomatis mampu mengelompokkan emosi setiap tweet. 1.6 Batasan Masalah Pada pengerjaan penelitian ini diberikan batasan-batasan masalah untuk permasalahan yang ada antara lain: 1. Tweet yang dianalisis sentimen hanya tweet berbahasa Indonesia. 2. Pengelompokkan tweet berdasarkan lima emosi yaitu cinta, marah, senang, sedih, dan takut 3. Tweet yang digunakan hanya tweet yang berupa text, tidak mengandung gambar. 1.7 Sistematika Penulisan Sistematika penulisan proposal tugas akhir ini dibagi menjadi beberapa bab dengan susunan sebagai berikut: BAB I : Pendahuluan Berisi penjelasan mengenai masalah yang akan diteliti, berisi latar belakang, rumusan masalah, tujuan penelitian,manfaat penelitian, luaran, batasan masalah, dan sistematika penulisan.

24 5 BAB II : Landasan Teori Berisi mengenai penjelasan dan uraian teori-teori yang berkaitan dengan topik analisis sentimen twitter, antara lain teori tentang analisis sentimen, emosi, preprocessing teks( Information Retrieval ), pembobotan kata, normalisasi min-max, normalisasi z-score, algoritma Agglomerative Hierarchical Clustering, Cosine Similarity, Euclidean Distance, dan Confusion Matriks BAB III : Metodologi Penelitian Berisi analisa dan design yang merupakan detail teknis sistem yang akan dibangun. BAB IV : Implementasi dan Analisis Hasil Bab ini berisi implementasi dari perancangan yang telah dibuat sebelumnya serta analisis dari hasil program yang telah dibuat BAB V : Penutup Bab ini berisi kesimpulan dari penelitian dan saraan saran untuk pengembangan penelitian lebih lanjut.

25 BAB II LANDASAN TEORI Bab ini berisi penjabaran teori-teori yang bersangkutan dengan penulisan Tugas Akhir ini. Teori-teori tersebut mencakup Analisis Sentimen, Emosi, Information Retrieval, Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion Matriks. 2.1 Analisis Sentimen Analisis sentimen adalah bidang studi yang menganalisi pendapat, sentimen, evaluasi, penilaian, sikap, dan emosi seseorang terhadap sebuah produk, organisasi, individu, masalah, peristiwa atau topik (Liu, 2012). Analisis sentimen dilakukan untuk melihat pendapat terhadap sebuah masalah, atau dapat juga digunakan untuk identifikasi kecenderungan hal yang sedang menjadi topik pembicaran. Analisis sentimen dalam penelitian ini adalah proses pengelompokkan tweet ke dalam lima emosi yaitu emosi senang, emosi cinta, emosi sedih, emosi marah dan emosi takut. Pengaruh dan manfaat dari analisis setimen, menyebabkan penelitian mengenai analisis sentimen berkembang pesat. Di Amerika kurang lebih perusahaan yang memfokuskan pada layanan analisis sentimen (Liu,2012). Manfaat Analisis sentimen dalam dunia usaha antara lain untuk melakukan pemantauan terhadap suatu produk. Secara cepat dapat digunakan sebagai alat bantu untuk melihat respon masyarakat terhadap produk tersebut, sehingga dapat segera diambil langkah- langkah strategis berikutnya. Pada umumnya analisis sentimen merupakan klasifikasi tetapi kenyataannya tidak semudah proses klasifikasi biasa karena terkait penggunaan bahasa, dimana terdapat ambigu dalam penggunaan kata serta perkembangan bahasa itu sendiri. 6

26 Level Analisis Sentimen Analisis sentimen terdiri dari tiga level analisis yaitu : 1. Level Dokumen Level dokumen menganalisis satu dokumen penuh dan mengklasifikasikan dokumen tersebut memiliki sentimen positif atau Negatif. Level analisis ini berasumsi bahwa keseluruhan dokumen hanya berisi opini tentang satu entitas saja. Level analisis ini tidak cocok diterapkan pada dokumen yang membandingkan lebih dari satu entitas (Liu, 2012). 2. Level Kalimat Level kalimat menganalisis satu kalimat dan menentukan tiap kalimat bernilai sentimen positif, netral, atau Negatif. Sentimen netral berarti kalimat tersebut bukan opini (Liu, 2012). 3. Level Entitas dan Aspek Level aspek tidak melakukan analisis pada konstruksi bahasa (dokumen, paragraph, kalimat, klausa, atau frase) melainkan langsung pada opini itu sendiri. Hal ini didasari bahwa opini terdiri dari sentimen (positif dan negatif) dan target dari opini tersebut. Tujuan level analisis ini adalah untuk menemukan sentimen entitas pada tiap aspek yang dibahas (Liu,2012). 2.2 Emosi Emosi adalah suatu pikiran dan perasaan khas yang disertai perubahan fisiologis dan biologis serta menimbulkan kecendrungan untuk melakukan tindakan (Goleman, 2006). Twitter seringkali digunakan untuk mengungkapkan emosi mengenai sesuatu hal, baik memuji ataupun mencela. Pengenalan emosi pada tweet dapat dilakukan

27 8 menggunakan analisis sentimen. Analisis sentimen dapat dimanfaatkan untuk menggali opini publik tentang suatu topik Emosi Dasar Emosi yang dimiliki manusia dikategorikan menjadi lima emosi dasar yaitu cinta, senang, marah, khawatir/takut, dan sedih. Emosi cinta dan senang merupakan emosi positif. Emosi marah, takut, dan sedih merupakabb emosi Negatif (Shaver, Murdaya, dan Fralet, 2001) Kosakata Emosi Penelitian terhadap 124 kosakata emosi di Indonesia menghasilkan dua kelompok besar yaitu kosakata emosi positif dan Negatif. Kelompokan kosakata emosi positif terdiri dari dua emosi dasar yaitu emosi cinta dan senang. Kelompokan kosakata emosi Negatif terdiri dari tiga emosi dasar yaitu marah, takut, dan sedih (Shaver, Murdaya, dan Fraley, 2001). Pengelompokkan terhadap 124 kosakata emosi di Indonesia terlihat pada Tabel 2.1 berikut: Tabel 2. 1 Kosa Kata Emosi Superordinat Emosi Subordinat Dasar Positif Cinta Ingin, kepingin, hasrat, berahi, terangsang, gairah, demen, suka, terbuai, terpesona, terkesiap, terpikat, tertarik, perasaan, getar hati, setia, edan kesmaran, kangen, rindu, kemesraan, asmara, mesra, cinta, kasih, sayang, hati. Positif Senang Bangga, kagum, asik, sukacita, sukaria, bahagia, senang, girang, gembira, ceria, riang, damai, aman, tentram, lega,

28 9 kepuasan, puas, berani, yakin, ikhlas, tulus, berbesar, besar hati, rendah hati, sabar, tabah Negatif Marah Bosan, jenuh, cemburu, curiga, histeris, tinggi hati, iri, dengki, gemas, gregetan, ngambek, tersinggung, muak, benci, emosi, kesal, sebal, mangkel, jengkel, dendam, dongkol, panas hati, kalap, murka, naik darah, naik pitam, marah, berang, geram Negatif Takut Gentar, takut, berdebar, kebat kebit, kalut, gusar, cemas, khawatir, waswas, bimbang, bingung, galau, gundah, gelisah, risau Negatif Sedih Patah hati,kecil hati, malu, simpati, tersentuh, haru, prihatin, iba, kasihan, murung,pilu, sendu, sedih, duka, dukacita, sakit hati, pedih hati, patah hati, remuk hati, frustasi, putus asa, putus harapan, menyesal, penyesalan, sesal, berat hati. 2.3 Information Retrieval Penelitian ini mencoba menganalisis emosi yang terkandung dalam sebuah tweet berbahasa Indonesia. Dengan cara manual, analisis emosi atau analisis sentimen bisa saja dilakukan. Misalnya memonitor berita-berita di media massa. Akan tetapi untuk data tweet, cara manual tidak mungkin bisa dilakukan karena jumlah datanya yang sangat besar dan terus mengalir. Disinilah peranan Information Retrieval, yang secara otomatis dapat mengolah kata. Information Retrieval merupakan sekumpulan algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi (terstruktur) pada suatu koleksi data yang besar (Manning,Raghavan,dan Schutze, 2009).

29 10 Berikut proses-proses Information Retrieval : a. Tokenizing Tokenizing merupakan langkah untuk memotong dokumen menjadi potonganpotongan kecil yang disebut token dan terkadang disertai langkah untuk membuang karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009). Contoh proses tokenizing : Kalimat asal : Disaat sedih jangan lupakan kamu juga pernah bahagia, sedih itu membuatmu dewasa Hasil dari tokenizing : Disaat Juga MembuatMu Sedih Pernah Dewasa Jangan Bahagia Lupakan Sedih Kamu itu b. Stopwords Removal Stopword merupakan kosakata yang bukan ciri(kata) unik dari suatu dokumen (Dragut et all, 2009). Contoh stopword adalah dia, mereka, saya, pada, di, kenapa, apa, dan lain sebagainya. Sebelum proses stopword removal dilakukan, harus dibuat daftar stopword (stoplist) dimana stoplist ini berisi kata kata umum,kata-kata penghubung, kata ganti orang dan bukan kata unik. Jika suatu kata termasuk di dalam stoplist maka kata kata tersebut akan dihapus dari deskripsi sehingga kata kata yang tersisa di dalam deskripsi dianggap sebagai kata-kata yang mencirikan isi dari suatu dokumen. Daftar stoplist dipenelitian ini bersumber dari Tala (2003). Contoh proses stopword :

30 11 Hasil dari tokenizing : Disaat Juga MembuatMu Sedih Pernah Dewasa Jangan Bahagia Lupakan Sedih Kamu itu Hasil dari Stopword Disaat Membuat Sedih Pernah Dewasa Jangan Lupakan Bahagia Sedih c. Stemming Stemming merupakan tahap menghilangkan kata berimbuhan menjadi kata dasar (root) dari tiap kata hasil stopword dengan menggunakan aturan aturan tertentu. Contoh Proses Stemming : Hasil dari Stopwords : Disaat Membuat Sedih Pernah Dewasa Jangan Lupakan Bahagia Sedih Hasil dari Stemming : Saat Buat Dewasa

31 12 Sedih Jangan Lupa Pernah Bahagia Sedih 1) Rule Stemming Algoritma Stemming untuk menghilangkan kata berimbuhan memiliki tahap tahap sebagai berikut (Nazief dan Adriani, 2007) : 1. Pertama cari kata yang akan distem dalam kamus kata dasar. Jika ditemukan maka diasumsikan kata adalah root word. Maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah Hilangkan Inflection Suffixes bila ada. Dimulai dari Inflectional Particle( -lah, -kah, -ku, -mu, atau -nya ),kemudian Possesive Pronouns ( -ku, -mu, atau -nya ). Cari kata pada kamus kata dasar jika ditemukan maka algoritma berhenti, jika tidak ditemukan maka lakukan langkah Hapus Derivation Suffixes ( -i, -an, atau -kan ). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a a. Jika -an telah dihapus dan huruf terakhir dari kata tersebut adalah -k, maka -k juga ikut dihapus. Jika tidak ditemukan maka lakukan langkah 3b. b. Akhiran yang dihapus ( -i, -an, atau -kan ) dikembalikan, lanjut ke langkah Pada langkah 4 terdapat tiga iterasi: a. Iterasi berhenti jika : 1. Ditemukannya kombinasi akhiran yang tidak diizinkan berdasarkan awalan Tabel 2. 2 Tabel awalan-akhiran Awalan Akhiran yang tidak diizinkan

32 13 be- -i di- -an ke- -i, -kan me- -an se- -i, -kan 2. Awalan yang dideteksi sama dengan awalan yang dihilangkan sebelumnnya. 3. Tiga awalan telah dihilangkan b. Identifikasi tipe awalan dan hilangkan. Awalan terdiri dari dua tipe : 1. Standar( di-, ke-, se- ) yang dapat langsung dihilangkan dari kata 2. Kompleks ( me-, be, pe, te ) adalah tipe awalan yang dapat berubah sesuai kata dasar yang mengikutinya. Oleh karena itu dibutuhkan aturan pada tabel berikut untuk mendapakan hasil pemenggalan yang tepat. Tabel 2. 3 Aturan peluruhan kata dasar Aturan Bentuk awalan Peluruhan 1 berv Ber-V be-rv. 2 Belajar Bel-ajar 3 bec1erc2 Be-C1erC2.. dimana C!={ r 1} 4 terv Ter-V te-rv 5 tecer Te-Cer dimana C!= r 6 tec1erc2.. Te-C1erC2 dimana C!= r 7 me{l r w y}v Me-{l r w y}v 8 mem{b f v} Mem-{b f v} 9 Mempe Mem-pe 10 Mem{rV V} Me-m{rV V} Mep{rV V} 11 Men{c d j z}. Men-{c d j z}. 12 menv. Me-nV me-tv.

33 14 13 Meng{g h q k}.. Meng-{g h q k}.. 14 mengv.. Meng-V meng-kv 15 mengec Menge-C 16 menyv Me-ny meny-sv 17 mempv Mem-pV 18 Pe{w y}v Pe-{w y}v. 19 perv Per-V. pe-rv 20 Pem{b f v} Pe-m{b f v} 21 Pem{rV V} Pe-m{rV V} pe-p{rv V} 22 Pen{c d j z}. Pen- { c d j z}. 23 penv Pe-nV.. pe..tv 24 Peng{g h q} Peng-{g h q} 25 pengv Peng-V peng-kv 26 penyv Pe-nya peny-sv 27 pelv Pe-IV..;kecuali untuk kata pelajar menjadi ajar 28 pecp Pe-CP dimana C!={r w y l m n} dan P!= er 29 percerv Per-CerV dimana C!={r w y l m n} Pada tabel 2.3 dapat dilihat aturan aturan peluruhan kata dasar yang apabila dilekati oleh awalan me-, be-, te-, pe-. Dimana pada kolom kedua dari tabel tersebut menjelaskan bentuk bentuk kata dasar yang dilekati awalan me-, be-, te-, pe-, sedangkan pada kolom ketiga menjelaskan perubahan perubahan karakter pada kata dasar yang mungkin terjadi apabila algoritma telah menghilangkan awalan yang telah melekati kata dasar tersebut. Huruf V pada tabel tersebut menunjukkan huruf hidup atau huruf vocal, huruf C menunjukkan huruf mati atau konsonan, dan huruf P menunjukkan pecahan er. Sebagai contoh, jika algoritma

34 15 menerima kata menyusun, maka proses Stemming pada kata tersebut mengikuti aturan ke-16 yaitu menyv.. dan perubahannya menjadi me-ny atau meny-sv... Berdasarkan aturan tersebut maka algoritma akan menghilangkan awalan me- maka akan didapatkan kata nyusun, selanjutnya kata nyusun akan diperiksa ke dalam database kata dasar karena kata nyusun bukan kata dasar maja tahap selanjutnya algoritma akan menghilangkan kata meny- dan kemudian algoritma akan menambahkan huruf s diddepan huruf u, maka akan didapatkan kata susun, selanjutnya kata susun akan diperiksa kedalam database kata dasar. Karena kata susun merupakan kata dasar maka kata tersebut akan diidentifikasikan sebagai kata dasar. c. Cari kata yang telah dihilangkan awalannya. Apabila tidak ditemukan maka langkah diulang kembali. Jika ditemukan maka algoritma berhenti. 5. Apabila setelah langkah 4 kata dasar masih belum ditemukan, maka proses recording dilakukan dengan mengacu pada aturan tabel 2.3. Recording dilakukan dengan menambahkan karakter recording di awal kata yang dipenggal. Pada tabel 2.3, karakter recording adalah huruf kecil setelah tanda hubung ( - ) dan terkadang berada sebelum tanda kurung. Sebagai contoh, kata menangkap (aturan 15) pada tabel 2.3, setelah dipenggal menjadi nangkap. Karena tidak valid, maka recording dilakukan dan menghasilkan kata tangkap. 6. Jika semua langkah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai rootword. Algoritma berhenti..

35 16 Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan aturan dibawah ini (Agusta, 2009) : 1. Aturan untuk reduplikasi Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : buku - buku root wordnya adalah buku. Kata lain, misalnya bolak-balik, berbalas-balasan, dan seolah-olah. Untuk mendapatkan root wordnya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjad bentuk tunggal, contoh : kata berbalas-balasan, berbalas dan balasan memiliki root word yang sama yaitu balas. Maka root word berbalas-balasan adalah balas. Sebaliknya, pada kata bolak-balik, bolak dan balik memiliki root word yang berbeda, maka root wordnya adalah bolak- balik. 2. Tambahan bentuk awalan dan akhiran serta aturannya Untuk tipe awalan mem-, kata yang diawali dengan awalan memp memiliki tipe awalan mem-. Tipe awalan meng-, kata yang diawali dengan awalan mengk- memiliki tipe awalan meng- d. Penggabungan Kata Berdasarkan Sinonim Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bentuk bahasa yang maknanya mirip atau sama dengan bahasa lain. Proses sinonim akan dilakukan ketika ada kata berbeda namun memiliki makna yang sama, untuk me-minimal-kan jumlah kata yang terdapat pada sistem, tanpa menghilangkan jumlah frekuensi (Rarasati,2015).

36 17 e. Pembobotan Kata Setelah melalui preprocessing text dihasilkan berbentuk token yang terpisah dari kata yang lain dan sudah dalam bentuk dasar. Pada langkah selanjutnya kata-kata atau term akan dirubah kedalam bentuk numerik untuk diketahui bobot setiap kata dari satu dokumen ke dokumen lainya. Metode TF-IDF merupakan metode pembobotan dalam bentuk sebuah metode yang merupakan integrasi antar term frequency (tf), dan inverse document frequency (idf) (Yan dan Liu,1999). Berikut rumus yang digunakan untuk mencari bobot kata dengan metode Term Frequency (TF) - Inverse Document Frequency (IDF) : idf = log (D/df) (2.1) Keterangan : D df W ij : Jumlah semua dokumen dalam koleksi : Jumlah dokumen yang mengandung term t = tf ij x idf W ij = tf ij x log(d/df j ) (2.2) Keterangan : W ij : bobot term t j terhadap dokumen d i tf ij D : jumlah kemunculan term t j dalam dokumen d i : jumlah semua dokumen yang ada dalam database df j : jumlah dokumen yang mengandung term t j

37 18 f. Normalisasi 1. Z-Score Normalisasi Z-Score umumnya digunakan jika nilai minimum dan maksimum sebuah atribut tidak diketahui (Mustaffa dan Yusof,2011). Normalisasi Z-Score dirumuskan sebagai berikut : v = ( v A σ A ) (2.3) Keterangan v v A σ A : nilai yang baru : nilai yang lama : rata - rata dari atribut A : nilai standar deviasi dari Atribut A 2. Min-max Normalisasi min max dirumuskan sebagai berikut (Mustaffa dan Yusof, 2011) : X 0 X min X n = (2.4) X max X min Keterangan : X n X 0 : nilai baru untuk variable X : nilai lama untuk variable X X min : nilai minimum dalam data set X min : nilai maksimum dalam data set

38 Euclidean Distance Euclidean Distance digunakan untuk menghitung nilai kedekatan antara dua dokumen. Perhitungan Euclidean Distance dirumuskan sebagai berikut (Prasetyo, 2014) : d(a, B) = A 1 B A 2 B A i B i 2 (2.5) Atau d(a, B) = n i=1 (B i A i ) 2 (2.6) Keterangan : n B i A i : Jumlah atribut : Data 2.5 Cosine Similarity Menurut Prasetyo pada buku Data Mining: Pengelolahan Data menjadi infromasi menggunakan matlab (2014), ukuran kemiripan yang sering digunakan untuk mengukur kemiripan dua dokumen x dan y adalah Cosine Similarity. Kemiripan yang diberikan adalah 1 jika dua vektor x dan y sama, dan bernilai 0 jika kedua vektor berbeda. Nilai jarak 1 menyatakan sudut yang dibentuk oleh vektor x day y adalah 0º, yang artinya vektor x dan y adalah sama (dalam hal jarak). Perhitungan Cosine Similarity dirumuskan sebagai berikut : s(x, y) = cos(x, y) = x y x y (2.7) Tanda titik ( ) melambangkan inner-product, x y = r x i y i i=1 (2.8) Tanda x adalah panjang dari vektor x, dimana :

39 20 r x = x 2 i=1 i = x x (2.9) 2.6 Agglomerative Hierarchical Clustering Agglomerative Hierarchical Clustering merupakan metode pengelompokkan berbasis hierarki dengan pendekatan bottom up, yaitu proses penggelompokkan dimulai dari masing-masing data sebagai satu cluster, kemudian secara rekursif mencari cluster terdekat sebagai pasangan untuk bergabung sebagai satu cluster yang lebih besar (Prasetyo,2014). Proses tersebut diulang terus sehingga tampak bergerak ke atas membentuk hierarki. Kunci operasi metode Agglomerative Hierarchical Clustering adalah penggunaan ukuran kedekatan diantara dua cluster (Hartini,2012). Ada tiga teknik yang dapat digunakan untuk menghitung kedekatan diantara dua cluster dalam metode Agglomerative Hierarchical Clustering yaitu Single linkage, Complete Linkage, dan Average Linkage. Pada metode Single linkage kedekatan di antara dua cluster ditentukan dari jarak terdekat (terkecil) di antara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan single linkage jarak antara dua cluster didefinisikan sebagai berikut : d(a, B) = Min x A,y B {S x,y } (2.10) Keterangan : {S x,y } : jarak antara data x dan y dari masing masing Cluster A dan B. Pada Complete Linkage kedekatan diantara dua cluster ditentukan dari jarak terjauh (terbesar) diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode complete lingkage jarak antara dua cluster didefinisikan sebagai berikut : d(a, B) = Max x A,y B {S x,y } (2.11)

40 21 Keterangan : {S x,y } : jarak antara data x dan y dari masing masing Cluster A dan B. Pada Average Linkage kedekatan diantara dua cluster ditentukan dari jarak ratarata diantara pasangan diantara dua data dari dua cluster berbeda (satu dari cluster pertama satu dari cluster yang lain). Dengan menggunakan metode average lingkage jarak antara dua cluster didefinisikan sebagai berikut : 1 d(a, B) = n A n x A x B S{x, y} (2.12) B Keterangan : n A n B : banyaknya data dalam cluster A : banyaknya data dalam cluster B Dengan menggunakan rumus perhitungan-perhitungan diatas akan diketahui jarak antar cluster. Masing masing perhitungan dapat menghasilkan dendrogram. Gambar 2. 1 Dendrogram Dari penjelasan yang telah dipaparkan diatas, maka secara singkat AHC dapat dimengerti sebagai metode yang dimulai dengan setiap n cluster yang membentuk cluster masing-masing. Kemudian dua cluster dengan jarak terdekat bergabung. Selanjutnya cluster yang lama akan bergabung dengan cluster yang sudah ada dan membentuk cluster baru. Hal ini tetap memperhitungkan jarak kedekatan antar cluster.

41 22 Proses akan berulang hingga akhirnya membentuk satu cluster yang memuat keseluruhan cluster. Sebagai contoh, diketahui data seperti pada tabel dibawah ini Tabel 2. 4 Contoh Data Data X Y 2 1 B 1 2 C 3 4 D 4 2 Dengan menggunakan rumus Euclidean Distance setiap obyek data tersebut dihitung similaritasnya sebagai berikut : d(a, b) = ( ) = 1 d(a, c) = ( ) = 3.16 d(a, d) = ( ) = d(b, c) = ( ) = 2.82 d(b, d) = ( ) =3 d(c, d) = ( ) = Berdasarkan perhitungan tersebut dapat dibentuk similarity matriks seperti tabel berikut. Tabel 2. 5 Similarity Matriks A b C d A B

42 23 C D Karena similarity matriks bersifat simetris maka dapat ditulis seperti dibawah ini dan menjadi matriks jarak: Tabel 2. 6 Matriks Jarak A B C D A B C D 0 1. Single linkage Dari tabel 2.6 jarak obyek yang paling dekat yaitu a dan b,berjarak 1. Kedua obyek data ini menjadi satu cluster pertama. Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari sisa yang ada (c,d) dan berada paling dekat (jarak minimum) dengan cluster(ab). Untuk pencarian jarak ini pertama digunakan Single linkage. d (ab)c = min{d ac, d bc } = min{ 3.16, 2.82} = 2.82 d (ab)d = min{d ad, d bd } = min{2.236, 3} = Setelah mendapat cluster ab, baris baris dan kolom kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom untuk cluster ab, matriks jarak menjadi seperti berikut : Tabel 2. 7 Matriks Jarak pertama Single Linkage Ab C d

43 24 Ab C D 0 Berdasarkan pada matriks jarak pertama, dipilih kembali jarak terdekat antar cluster yaitu abd dan cd dengan nilai Maka dapat dipilih salah satu dari kedua nilai tersebut. Dalam contoh ini cluster yang dipilih yaitu cd. Kemudian hitung jarak cluster cd dengan cluster ab. d (cd)ab = min{d ca, d cb, d da, d db } = min{3.16, 2.82, 2.236, 3} = Setelah mendapatkan cluster cd, baris baris dan kolom kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel 2. 8 Matriks Jarak kedua Single Linkage ab cd ab cd 0 Ketika jarak antar cluster tersisa satu maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung agar membentuk satu cluster yaitu abcd dengan jarak terdekat Berikut ini hasil dendrogram AHC dengan Single linkage:

44 25 Gambar 2. 2 Dendrogram Single linkage 2. Complete Linkage Perhitungan jarak dengan Complete Linkage akan dicari jarak antar cluster dengan yang paling jauh. Dengan tetap menggunakan tabel matriks jarak (tabel 2.7),perhitungan Complete Linkage ini dilakukan. Pada awal perhitungan, cluster ab tetap digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat yaitu 1. Berikut akan dilakukan perhitungan jarak antar cluster ab dengan c dan d. d (ab)c = max{d ac, d bc } = max{ 3.16, 2.82} = 3.26 d (ab)d = max{d ad, d bd } = max{2.236, 3} = 3 Setelah mendapatkan cluster ab,baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus, kemudian ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak seperti berikut : Tabel 2. 9 Matriks jarak pertama Complete Linkage ab c d ab c d 0

45 26 Dari tabel diatas dipilih jarak terdekat antar cluster yaitu Kemudian dihitung jarak dengan cluster ab. d (cd)ab = max{d ca, d cb, d da, d db } = max{3.16, 2.82, 2.236, 3} = 3.16 Setelah mendapat cluster cd, baris baris dan kolom kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus, kemudian ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel Matriks Jarak kedua Complete Linkage ab cd ab cd 0 Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat Berikut ini hasil dendrogram AHC dengan Complete Linkage: Gambar 2. 3 Dendrogram Complete Linkage 3. Average Linkage Menggunakan Average Linkage akan dicari jarak antara cluster dengan menghitung nilai rata-rata pasangan setiap cluster. Dengan tetap menggunakan tabel

46 27 matriks jarak (tabel 2.7), perhitungan Average Linkage ini dilakukan. Pada awal perhitungan, cluster ab teta digunakan sebagai cluster pertama karena jarak antar obyek yang paling dekat. Berikut ini akan dilakukan perhitungan jarak antara cluster ab dengan c dan d. d (ab)c = average{d ac, d bc } = average{ 3.16, 2.82} = = 2.99 d (ab)d = average{d ad, d bd } = average{2.236, 3} = = Setelah mendapatan cluster ab, baris-baris dan kolom-kolom matriks jarak yang bersesuaian dengan cluster a dan b dihapus dan ditambahkan baris dan kolom untuk cluster ab, sehingga matriks jarak menjadi seperti berikut : Tabel Matriks Jarak pertama Average Linkage ab c d ab c d Dari matriks diatas, dipilih kembali jarak terdekat antar cluster. Ditemukan cluster cd paling dekat, yaitu bernilai Kemudian dihitung jarak dengan cluster ab. d (cd)ab = average{d ca, d cb, d da, d db } = average{3.16, 2.82, 2.236, 3} = = Setelah mendapatan cluster cd, baris baris dan kolom kolom matriks jarak yang bersesuaian dengan cluster c dan d dihapus dan ditambahkan baris dan kolom untuk cluster cd, sehingga matriks jarak menjadi seperti berikut : Tabel Matriks Jarak kedua Average Linkage ab cd

47 28 ab cd 0 Ketika jarak antar cluster tersisa satu, maka proses iterasi perhitungan jarak untuk pembentukan cluster selesai. Jadi cluster ab dan cd digabung menjadi satu cluster yaitu abcd dengan jarak terdekat Berikut ini hasil dendrogram AHC dengan Average Linkage: Gambar 2. 4 Dendrogram average linkage Langkah Algoritma Agglomerative Hierarchical Clustering Algoritma Agglomerative Hierarchical Clustering untuk mengelompokkan n obyek adalah sebagai berikut ( Tan, Steinbach dan Kumar,2006 ) : 1. Hitung matriks kedekatan berdasarkan jenis jarak yang digunakan. 2. Ulangi langkat 3 sampai 4, hingga hanya satu kelompok yang tersisa 3. Gabungkan dua cluster terdekat berdasarkan parameter kedekatan yang ditentukan. 4. Perbarui matriks kedekatan untuk merepresentasikan kedekatan diantara kelompok baru dan kelompok yang tersisa. 5. Selesai

48 Flowchart Agglomerative Hierarchical Clustering 1. Single Linkage Gambar 2. 5 Flowchart Single Linkage

49 30 2. Complete Linkage Gambar 2. 6 Flowchart Complete Linkage

50 31 3. Average Linkage Gambar 2. 7 Flowchart Average Linkage

51 Confusion Matriks Pada penelitian ini metode evaluasi clustering yang digunakan yaitu metode external evaluasi. External evaluasi bekerja dengan membandingkan hasil pengelompokkan sistem dengan label class. Salah satu metode external evaluasi yaitu, Confusion Matrix. Confusion Matriks merupakan metode external evaluasi yang berisi informasi yang actual dan dapat diprediksi (Kohavi dan Provost, 1998), dimana kinerja sistem dapat di evaluasi menggunakan data dalam matriks. Tabel berikut menunjukkan Confusion matrix : Tabel Tabel Confusion Matriks Predicted Negatif Positif Actual Negatif a b Positif c d Keterangan : a : jumlah prediksi yang benar bahwa contoh bersifat negatif b : jumlah prediksi yang benar bahwa contoh bersifat negatif c : jumlah prediksi yang benar bahwa contoh bersifat positif d : jumlah prediksi yang salah bahwa contoh bersifat positif Perhitungan akurasi dirumuskan sebagai berikut : A = a+d a+b+c+d x 100% (2.13)

52 BAB III METODE PENELITIAN Bab ini berisi perancangan penelitian yang akan dibuat oleh penulis meliputi data, kebutuhan system, tahapan penelitian, desain interface, skenario sistem, dan desain pengujian. 3.1 Data Pada penelitian ini, data yang digunakan ialah tweet berbahasa Indonesia yang terdapat pada Twitter. Tweet yang digunakan ialah tweet-tweet yang mengandung emosi cinta, senang, marah, takut, dan sedih. Dari masing- masing emosi, diambil 100 data per emosi sehingga total tweet yang digunakan sebagai data berjumlah 500. Pencarian data dilakukan dengan menggunakan hashtag #cinta, #senang, #takut, dan #sedih pada website Pemilihan data secara manual yaitu memilih kalimat-kalimat tweet yang berbahasa Indonesia dan tidak mengandung gambar. Tweet yang telah dipilih kemudian di simpan ke file teks. Kemudian file teks tersebut digunakan sebagai input pada sistem untuk diolah lebih lanjut. Berikut contoh tweet dengan emosi cinta : Gambar 3. 1 Tweet Cinta 33

53 34 Berikut contoh tweet dengan emosi senang : Gambar 3. 2Tweet Senang Berikut contoh tweet dengan emosi marah : Gambar 3. 3 Tweet Marah Berikut contoh tweet dengan emosi takut : Gambar 3. 4 Tweet Takut

54 35 Berikut contoh tweet dengan emosi sedih : Gambar 3. 5 Tweet Sedih 3.2 Kebutuhan Sistem Untuk proses membuat sistem digunakan software dan hardware sebagai berikut : 1. Software a) Sistem Operasi : Windows 8 64-bit b) Bahasa Pemograman : Matlab R2010A 2. Hardware a) Processor : Intel (R) Core(TM) i3-3217u 1.8GHz b) Memory : 2 Gb c) Harddisk : 500 Gb 3.3 Tahapan Penelitian Studi Pustaka Pada Studi Pustaka ini penulis mencantumkan dan menggunakan teori teori yang terkait dengan penelitian yang dilakukan,seperti teori Analisis sentimen, emosi, Preprocessing text( Information Retrieval), Pembobotan kata, Normalisasi, Agglomerative Hierarchical Clustering, Euclidean Distance, dan Confusion matriks.

55 Pengumpulan Data Data yang digunakan pada penelitian ini adalah tweet berbahasa Indonesia yang ditulis oleh para pengguna Twitter. Tweet yang dikumpulkan berupa tweet yang berisi emosi cinta, marah, senang, sedih, dan takut Pembuatan Alat Uji Pada tahap ini, akan dirancang suatu alat uji yang dimulai dengan perancangan interface dan pembuatan alat uji untuk menguji Agglomerative Hierarchical Clustering untuk mengelompokkan tweet serta mendapatkan akurasi dari sistem yang telah dibangun Pengujian Pada tahap pengujian ini, data terlebih dahulu di-preprocessing sehingga dari data yang dihasilkan dapat dilakukan proses clustering. Dari hasil clustering yang dilakukan, pengujian dilakukan dengan menggunakan Cofusion Matriks.

56 Desain Interface Gambar 3. 6 Desain Interface 3.5 Perancangan Struktur Data Struktur data digunakan untuk mengelola penyimpanan data agar data dapat diakses sewaktu waktu jika sedang diperlukan. Pada penelitian ini konsep struktur data yang digunakan ialah : a. ArrayList ArrayList digunakan untuk menampung data tweet. Sebagai contoh dapat dilihat pada ilustrasi berikut : Data 1 Data 2 Data 3 Data 4 [ Data 5] Obyek data 1, Data 2, Data 3, Data 4, Data 5 merupakan representasi dari data tweet yang akan dijelaskan pada tabel berikut :

57 38 Obyek Data 1 Data 2 Data 3 Data 4 Data 5 Atribut Cinta tak kan menuntut kesempurnaan. Cinta kan menerima, memahami, rela berkorban. Karena seharusnya cinta membuat mu bahagia Dalam hidup ini berbagi kepada sesama memberi jiwa rasa damai. Berbagi dengan tulus tanpa pamrih memberikan perasaan sukacita.. Aku patah hati, mas! Sakit sesakit-sakitnya. Resah dan gelisah tanpa arah. Baru ditinggal berapa jam rasanya khawatir. 3.6 Skenario Sistem Gambaran Umum Sistem Gambar 3. 7 Block Diagram Sistem ini digunakan untuk mengetahui tingkat akurasi penggolongan tweet berdasarkan emosi dengan menggunakan metode Agglomerative Hierarchical Clustering. Langkahnya adalah melalui data tweet yang berekstensi.txt. Teks akan mengalami tahap preprocessing yang terdiri dari Tokenizing, stopword, dan stemming. Tahap kedua yaitu tahap pembobotan kata menggunakan TF-IDF untuk menentukan nilai frekuensi dari dokumen, serta melakukan penggabungan kata

58 39 (sinonim), jika ditemukan kata yang berbeda namun memiliki makna yang sama maka gabungkan menjadi satu kata. Setelah mendapatkan bobot, maka hasil pembobotan di normalisasi. Pada tahap normalisasi ini peneliti menggunakan normalisasi Min-Max dan Z-Score, dilakukan dua macam normalisasi agar mendapatkan metode yang lebih optimal pada penelitian ini. Tahap selanjutnya yaitu menentukan kedekatan data emosi (cinta, senang, sedih, marah,dan takut) dengan metode Agglomerative Hierarchical Clustering menggunakan Euclidean Distance. Tahap terakhir adalah proses perhitungan akurasi menggunakan Confusion matriks. Setelah menemukan hasil akurasi serta pengelompokkan selanjutnya sistem melakukan proses input data baru, yang berfungsi untuk mengetahui data baru termasuk dalam cluster emosi yang mana. Maka data baru dapat dikategorikan termasuk salah satu dari emosi yang ada Tahap Preprocessing Tahap preprocessing meliputi tahap Tokenizing, stopword removal, dan stemming. Sistem akan menghapus link url, username, dan tanda retweet. Sistem akan mengubah kata tidak baku atau kata yang disingkat menjadi kata yang baku. Sistem juga akan mengambil kata yang diawali tanda pagar (hashtag). Penjelasan tahap preprocessing adalah sebagai berikut: a. Tokenizing Pada tahap ini sistem akan memotong dokumen menjadi potonganpotongan kecil yang disebut token dan terkadang disertai langkah untuk membuang karakter tertentu seperti tanda baca (Manning,Raghavan,dan Schutze, 2009). Langkah-Langkah Tokenizing : 1. Baca tiap baris pada file text sebagai satu tweet 2. Ambil tiap token pada kalimat tweet dengan menggunakan spasi sebagai pemisah antara satu token dengan token lain. 3. Simpan tiap kalimat tweet yang terdiri dari token penyusun.

59 40 Berikut contoh Tokenizing terhadap kalimat tweet cinta, senang, marah, sedih, dan takut : - Tokenizing tweet cinta - Gambar 3. 8 Tokenizing tweet cinta - Tokenizing tweet senang Gambar 3. 9 Tokenizing tweet senang - Tokenizing tweet marah Gambar Tokenizing tweet marah

60 41 - Tokenizing tweet takut Gambar Tokenizing tweet takut - Tokenizing tweet sedih Gambar Tokenizing tweet sedih b. Stopword Setelah mengalami proses tokenizing, kemudian data tweet diolah melalui proses stopword. Dalam proses stopword, kata-kata yang penting akan disaring sehingga kata yang tidak relevan dapat dibuang. Langkah langkah stopword : 1. Baca data hasil tokenizing 2. Cek setiap kata hasil tokenizing dengan stoplist 3.Jika kata pada hasil tokenizing sama dengan kata pada stoplist, maka kata tersebut dihapus. 4.Jika tidak maka kata akan disimpan. Maka dibawah ini merupakan contoh tweet yang mengandung emosi cinta, senang, marah, sedih, dan takut yang mengalami proses stopword.

61 42 Gambar Stopword tweet cinta Gambar Stopword tweet senang Gambar Stopword tweet marah

62 43 Gambar Stopword tweet sedih Gambar Stopword tweet takut c. Stemming Setelah mengalami proses stopword, proses selanjutnya ialah proses stemming dimana mencari kata dasar dari data tweet. Stemming dilakukan dengan menghilangkan awalan dan akhiran. Berikut langkah langkah stemming : 1. Baca tiap kata dan cek dengan kata pada kamus kata dasar. 2. Jika kata sama dengan kata pada daftar kamus kata dasar, maka kata tersebut adalah kata dasar. 3. Jika kata tidak sama dengan kata pada daftar kamus kata dasar, hapus akhiran dan awalan pada kata. 4. Cek hasil langkah ke 3 dengan kata pada daftar kamus kata dasar, jika tidak sama dengan, anggap kata sebelum dikenali langkah 3 sebagai kata dasar. Dibawah ini merupakan contoh data tweet yang mengalami proses stemming:

63 44 Gambar Stemming tweet cinta Gambar Stemming tweet senang Gambar Stemming tweet marah Gambar Stemming tweet sedih

64 45 Gambar Stemming tweet takut Tahap Pembobotan dan Penggabungan Sinonim Kata Setelah data melewati proses preprocessing, langkah selanjutnya ialah tahap pembobotan. Tahap pembobotan ini bertujuan untuk memberi nilai frekuensi suatu kata sebagai bobot yang nantinya dapat di proses pada Agglomerative Hierarchical Clustering. Langkah pertama ialah menghitung nilai term frequency tiap kata. Langkah kedua yaitu menghitung nilai document frequency tiap kata. Langkah ketiga yaitu menghitung inverse document frequency. Langkah terakhir yaitu menghitung bobot atau weight dari hasil perkalian term frequency dikalikan dengan inverse document frequency. Berikut contoh proses pembobotan kata : a. Menghitung term frequency Gambar TF tweet cinta

65 46 Gambar 3.23 merupakan contoh kalimat tweet yang mengalami proses penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah tweet yang mengandung emosi cinta. Gambar TF tweet senang Gambar 3.24 merupakan contoh kalimat tweet yang mengalami proses penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah tweet yang mengandung emosi senang. Gambar TF tweet marah Gambar 3.25 merupakan contoh kalimat tweet yang mengalami proses penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah tweet yang mengandung emosi marah. Gambar TF tweet sedih

66 47 Gambar 3.26 merupakan contoh kalimat tweet yang mengalami proses penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah tweet yang mengandung emosi sedih. Gambar TF tweet takut Gambar 3.27 merupakan contoh kalimat tweet yang mengalami proses penghitungan term frequency. Kalimat tweet yang digunakan pada diatas adalah tweet yang mengandung emosi takut. b. Menghitung document frequency Tabel 3. 1 Tabel menghitung df No Kata df 1. Cinta 2 2. Sayang 3 3. Ikhlas 1 4. Enak 1 5. Muak 1 6. Sifat 1 7. Selamat 1 8. Sore 1 9. Rumah Suasana Duka Pergi Mamah 1

67 Sedih Ajak Nonton Horror Indonesia takut 1 Pada tabel 3.1 merupakan contoh perhitungan document frequency, document frequency merupakan banyaknya bobot yang terkandung dalam seluruh data tweet. c. Menghitung inverse document frequency Tabel 3. 2 idf No Kata df Idf 1. Cinta Sayang Ikhlas Enak Muak Sifat Selamat Sore Rumah Suasana Duka Pergi Mamah Sedih Ajak Nonton Horror

68 Indonesia Takut Pada tabel 3.2 merupakan contoh perhitungan inverse document frequency. d. Menghitung bobot atau weight Setelah menghitung TF dan IDF, langkah selanjutnya ialah menghitung bobot (Wij) yang terdapat pada masing masing tweet. Dimana bobot ialah hasil perkalian term frequency dengan inverse document frequency. Berikut merupakan contoh perhitungan bobot data tweet : Hitung bobot (Wij) tweet cinta Tabel 3. 3 Hitung Wij Tweet Cinta Kata tf idf Wij Cinta Sayang Total Pada tabel 3.3 menunjukkan conntoh perhitungan bobot yang terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang mengandung emosi cinta. Hitung bobot (Wij) tweet senang Tabel 3. 4 Hitung Wij Tweet Senang Kata TF Idf Wij Ikhlas Enak Total

69 50 Pada tabel 3.4 menunjukkan conntoh perhitungan bobot yang terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang mengandung emosi senang. Hitung bobot (Wij) tweet marah Tabel 3. 5 Hitung Wij Tweet Marah Kata TF Idf Wij Muak Sifat Total Pada tabel 3.5 menunjukkan conntoh perhitungan bobot yang terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang mengandung emosi marah. Hitung bobot (Wij) tweet sedih Tabel 3. 6 Hitung Wij Tweet Sedih Kata TF Idf Wij Selamat Sore Rumah Suasana Duka Pergi Mamah Sedih Total

70 51 Pada tabel 3.6 menunjukkan conntoh perhitungan bobot yang terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang mengandung emosi sedih. Hitung bobot (Wij) tweet takut Tabel 3. 7 Hitung Wij tweet takut Kata TF Idf Wij Ajak Nonton Horror Indonesia Takut Total Pada tabel 3.7 menunjukkan conntoh perhitungan bobot yang terkandung dalam tweet. Tweet yang digunakan pada gambar diatas adalah tweet yang mengandung emosi takut. e. Penggabungan Kata (Sinonim) Menurut Kamus Besar Bahasa Indonesia (KBBI) sinonim adalah bahasa yang maknanya mirip, maka pada proses penggabungan kata dapat dilakukan ketika terdapat kata berbeda namun memiliki makna yang sama, dapat digabungkan menjadi satu kata, tanpa mengubah nilai frekuensi. Berikut contoh kata yang mengalami proses penggabungan kata : Tabel 3. 8 Tabel contoh data belum mengalami proses penggabungan Kata TF Riang 1 Gembira 1 Senang 1

71 52 Senank 1 Umpat 1 Kesel 1 Kesal 1 Tabel 3. 9 Tabel contoh data setelah penggabungan Kata TF Gembira 3 Kesal Tahap Normalisasi Setelah data diproses melalui tahap preprocessing, data selanjutnya di normalisasi. Normalisasi pada penelitian ini menggunakan normalisasi min-max dan normalisasi Z-Score. a) Normalisasi Min-max Tabel Tabel Contoh data pembobotan Tweet 1 Tweet 2 Tweet 3 Tweet 4 Tweet 5 Tweet 6 Tweet 7 Tweet 8 Tweet 9 Tweet 10 Kata Cinta senang Kesal Takut Sedih

72 53 Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling banyak muncul. Bobot dominan diitunjukkan dengan warna biru. Langkah Langkah Normalisasi Min-max : 1. Cari masing masing nilai terkecil (min) dan nilai terbesar (max) pada setiap kata. Tabel Tabel Min-max cinta Senang kesal takut Sedih Min Max Tabel 3.11 menunjukkan nilai terkecil dan nilai terbesar pada data. Nilai terkecil dan terbesar digunakan pada normalisasi min-max. 2. Hitung nilai bobot baru : X 0 X min X n = (3.1) X max X min Tabel Tabel data hasil normalisasi min - max Kata Cinta Senang kesal Takut Sedih Tweet Tweet 2 1 0, Tweet Tweet 4 0 0, Tweet Tweet ,5 0 0 Tweet ,5 0 Tweet Tweet Tweet

73 54 Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi min-max. Bobot baru ditunjukkan dengan warna biru. b) Normalisasi Z-Score Normalisasi Z-Score digunakan supaya kata hasil pembobotan data dapat dibandingkan. Dibawah ini merupakan langkah langkah untuk mendapatkan hasil normalisasi Z-Score. 1. Hasil pembobotan setelah proses preprocessing Tabel 3.10 Tabel contoh data pembobotan Tweet 1 Tweet 2 Tweet 3 Tweet 4 Tweet 5 Tweet 6 Tweet 7 Tweet 8 Tweet 9 Tweet 10 Kata Cinta senang kesal Takut Sedih Pada tabel 3.10 terdapat bobot yang dominan dibandingkan bobot-bobot lain. Pada contoh diatas, bobot yang dianggap dominan adalah bobot yang paling banyak muncul. Bobot dominan diitunjukkan dengan warna biru..

74 55 2. Mencari nilai rata-rata dari masing masing data tweet. Tabel Tabel Rata - Rata Tweet 1 Tweet 2 Tweet 3 Tweet 4 Tweet 5 Tweet 6 Tweet 7 Tweet 8 Tweet 9 Tweet 10 Rata-rata total Rata rata , Tabel 3.13 menunjukkan hasil perhitungan rata-rata setiap kalimat tweet. Kemudian dicari total rata-rata tweet untuk dapat diproses pada tahap normalisasi 3. Mencari nilai standar deviasi dari masing masing tweet. Tabel Tabel Standar Deviasi Standar deviasi Standar Deviasi 0, Pada tabel 3.14 dicari standar deviasi dari semua data untuk dapat diproses pada tahap normalisasi.

75 56 4. Hasil Normalisasi Perhitungan rumus yang telah dipaparkan pada bab sebelumnya pada persamaan 2.6. Tabel Hasil Normalisasi Zscore Kata cinta Senang kesal Takut Sedih Tweet 1 1, , , , ,49497 Tweet 2 1, , , , ,49497 Tweet 3-0, , , , ,49497 Tweet 4-0, , , , ,49497 Tweet 5-0, , , , ,49497 Tweet 6-0, , , , ,49497 Tweet 7-0, , , , ,49497 Tweet 8-0, , , , ,49497 Tweet 9-0, , , , ,39794 Tweet 10-0, , , , ,39794 Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot baru ditunjukkan dengan warna biru Agglomerative Hierarchical Clustering Setelah data dinormalisasi, data kemudian masuk pada tahap clustering. Pengelompokkan pada penelitian ini menggunakan Agglomerative Hierarchical Clustering (AHC). Matriks jarak dihitung dengan menggunakan Cosine Similarity. Masing-masing data akan dikelompokkan berdasarkan karakteristik kedekatannya. Proses pengelompokkan ini akan menggunakan tiga metode yaitu, single linkage, complete linkage, dan average linkage. Berikut langkah langkah pengelompokkan menggunakan AHC.

76 57 1. Hitung matriks jarak menggunakan Cosine Similarity a. Hasil Normalisasi min max Tabel 3.12 Tabel data hasil normalisasi min max Kata Cinta Senang kesal Takut Sedih Tweet Tweet 2 1 0, Tweet Tweet 4 0 0, Tweet Tweet ,5 0 0 Tweet ,5 0 Tweet Tweet Tweet Tabel 3.12 menunjukkan hasil hitung bobot baru menggunakan normalisasi min-max. Bobot baru ditunjukkan dengan warna biru. Hasil matriks jarak dari normalisasi min-max : Tabel Tabel hasil matriks jarak dari normalisasi min - max Tweet 1 tweet 2 tweet 3 tweet 4 tweet 5 tweet 6 Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet ,333 1,414 1,202 1,414 1,118 1,118 1,414 1,414 1, ,202 1,054 1,453 1,167 1,167 1,453 1,453 1, ,333 1,414 1,118 1,118 1,414 1,414 1, ,202 0,833 0,833 1,202 1,202 1, ,500 1,118 1,414 1,414 1, ,707 1,118 1,118 1,118

77 58 tweet 7 tweet 8 tweet 9 tweet ,500 1,118 1, ,414 1, b. Hasil Normalisasi Z-Score Tabel 3.15 Hasil Normalisasi ZSscore Kata cinta Senang kesal Takut Sedih Tweet 1 1, , , , ,49497 Tweet 2 1, , , , ,49497 Tweet 3-0, , , , ,49497 Tweet 4-0, , , , ,49497 Tweet 5-0, , , , ,49497 Tweet 6-0, , , , ,49497 Tweet 7-0, , , , ,49497 Tweet 8-0, , , , ,49497 Tweet 9-0, , , , ,39794 Tweet 10-0, , , , ,39794 Tabel 3.15 Menunjukkan hasil normalisasi menggunakan Z-Score. Bobot baru ditunjukkan dengan warna biru.

78 59 Hasil matriks jarak dari normalisasi Z-Score: Tabel Hasil matriks jarak normalisasi Z-Score Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet 1 1,000 0,767-0,185-0,221-0,221-0,146-0,146-0,221-0,221-0,221 tweet 2 1,000 0,365 0,334-0,406-0,414-0,414-0,406-0,406-0,406 tweet 3 1,000 0,985-0,250-0,231-0,231-0,250-0,250-0,250 tweet 4 1,000-0,221-0,146-0,146-0,221-0,221-0,221 tweet 5 1,000 0,943-0,146-0,221-0,221-0,221 tweet 6 1,000 0,029-0,146-0,146-0,146 tweet 7 1,000 0,943-0,146-0,146 tweet 8 1,000-0,221-0,221 tweet 9 1,000 1,000 tweet 10 1, Setelah didapatkan matriks jarak, kemudian melakukan perhitungan AHC seperti yang dapat dilihat dalam bab ke dua pada tulisan ini. Dengan menggunakan matlab, data sample pada tabel 3.16 menghasilkan dendrogram seperti berikut :

79 60 a. Hasil data normalisasi min max Gambar Data min max Single linkage Gambar Data min max Complete linkage

80 61 Gambar Data min max average linkage Berikut source code matlab yang digunakan untuk menghasilkan gambar dendrogram diatas : Gambar Source code AHC min max

81 62 b. Hasil data normalisasi Z-Score Gambar Data Z-Score Single linkage Gambar Data Z-Score Complete linkage

82 63 Gambar Data Z-Score Average linkage Berikut source code matlab yang digunakan untuk menghasilkan gambar dendrogram diatas : Gambar Source code AHC Z-Score

83 64 3. Hasil Cluster a. Hasil cluster menggunakan normalisasi Z-Score Tabel Hasil max cluster 5 single linkage- Z-Score Cluster Cluster Cluster Cluster Cluster Tweet 7 Tweet 5 Tweet 1 Tweet 3 Tweet 9 Tweet 8 Tweet 6 Tweet 2 Tweet 4 Tweet 10 Tabel Hasil max cluster 5 complete linkage- Z-Score Cluster Cluster Cluster 3 Cluster Cluster Tweet 1 Tweet 5 Tweet 9 Tweet 1 Tweet 3 Tweet 2 Tweet 6 Tweet 10 Tweet 2 Tweet 4 Tabel Hasil max cluster 5 average linkage- Z-Score Cluster Cluster 2 Cluster 3 Cluster Cluster Tweet 7 Tweet 10 Tweet 6 Tweet 3 Tweet 1 Tweet 8 Tweet 9 Tweet 5 Tweet 4 Tweet 2 b. Hasil cluster menggunakan normalisasi Min - Max Tabel Hasil max cluster 5 single linkage- Min - Max Cluster Cluster Cluster Cluster Cluster Tweet 7 Tweet 5 Tweet 3 Tweet 1 Tweet 9 Tweet 8 Tweet 6 Tweet 4 Tweet 2 Tweet 10

84 65 Tabel Hasil max cluster 5 complete linkage- Min - Max Cluster Cluster Cluster Cluster Cluster Tweet 3 Tweet 1 Tweet 7 Tweet 5 Tweet 9 Tweet 4 Tweet 2 Tweet 8 Tweet 6 Tweet 10 Tabel Hasil max cluster 5 average linkage- Min - Max Cluster Cluster Cluster Cluster Cluster Tweet 8 Tweet 5 Tweet 4 Tweet 2 Tweet 9 Tweet 7 Tweet 6 Tweet 3 Tweet 1 Tweet Tahap Hitung Akurasi Setelah dendrogram ditampilkan, maka pengujian akurasi dilakukan agar dapat mengetahui keakuratan hasil pengelompokkan. Pada pengujian akurasi menggunakan confusion matriks. Confusion matriks digunakan untuk mengetahui seberapa besar keberhasilan sistem. Confusion matriks dipilih sebagai alat ukur evaluasi karena data yang digunakan dalam penelitian ini sudah memiliki label. Confusion matriks juga dapat memudahkan dalam menganalisa hasil dan memudahkan dalam melihat suatu permodelan antara 2 class yaitu class prediksi dan class actual. Berikut langkah langkah uji akurasi : 1. Baca label aktual tweet. 2. Baca label tweet hasil prediksi 3. Representasikan label aktual dan prediksi ke dalam confusion matriks 4. Hitung akurasi dengan cara membagi jumlah tweet yang benar dikenali dengan jumlah seluruh data kemudian dikalikan dengan 100%. Berikut perbandingan Cluster hasil prediksi dan label aktual :

85 66 Tabel Tabel perbandingan cluster hasil prediksi dan label aktual Prediksi Aktual Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Tweet Berikut adalah contoh tabel confusion matriks dari perhitungan sebelumnya (data yang dinormalisasi menggunakan Z-Score dengan menggunakan single linkage): Tabel Tabel Confusion matriks Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 1 2 Cluster 2 2 Cluster Cluster Cluster 5 2 Akurasi = 60 x 100% = 60 % 10

86 Desain Pengujian Pengujian yang dilakukan pada penelitian ini menggunakan tiga macam pendekatan yaitu pengujian tanpa menggunakan normalisasi, pengujian menggunakan normalisasi z-score, dan pengujian menggunakan normalisasi minmax. Pengujian pengujian tersebut dikombinasikan dengan batas atas,batas bawah, perhitungan jarak, dan metode AHC. Perbedaan perlakuan pada saat pengujian dilakukan untuk menemukan perlakuan yang paling optimal untuk mendapatkan hasil akurasi tertinggi. a. Pengujian Tanpa normalisasi Pengujian dilakukan tanpa menggunakan tahap normalisasi data. Nilai parameter yang diubah-ubah pada pengujian ini yaitu batas minimal kemunculan kata pada keseluruhan dokumen. b. Pengujian menggunakan normalisasi min - max Pengujian dilakukan menggunakan normalisasi min - max. Nilai bobot yang diubah pada penelitian ini ialah nilai bobot yang mendominasi. c. Pengujian menggunakan normalisasi Z-Score Pengujian dilakukan menggunakan normalisasi Z-Score. Nilai bobot yang diubah pada penelitian ini ialah nilai bobot yang mendominasi.

87 BAB IV HASIL DAN ANALISIS HASIL Bab ini berisi mengenai implementasi, hasil dan analisis hasil dari metodologi yang dibahas pada bab sebelumnya. 4.1 Implementasi Data Data yang digunakan ialah data berekstensi.txt diambil dari tweet yang bersumber dari netlytic.org. Tweet yang diambil merupakan tweet yang memiliki emosi yaitu cinta, senang, sedih, takut, dan marah. Tweet yang digunakan sebanyak 500 data. Berikut kumpulan data dan contoh data tweet : Gambar 4. 1 Kumpulan Data 68

88 69 Gambar 4. 2 Contoh Data Preprocessing Preprocessing merupakan tahap awal dalam proses agglomerative hierarchical clustering. Pada tahap ini data mentah berupa teks kumpulan tweet akan diubah menjadi data yang memiliki nilai bobot, sehingga dapat diproses pada tahap selanjutnya. Tahap preprocessing adalah sebagai berikut : 1. Tokenizing Tokenizing bertujuan untuk memecah kalimat menjadi per kata dengan memanfaatkan karakter spasi sebagai pemisah setiap kata. Tahap pertama ialah sistem akan membaca data tweet, lalu data tersebut dipisah menjadi per kata, selanjutnya data tweet diubah menjadi huruf kecil (lowercase), selanjutnya karakter yang terdiri dari tanda baca dan angka dihapus. Gambar berikut menunjukkan potongan source code proses tokenizing : Gambar 4. 3 Source code Tokenizing (Rarasati,2015 ) 2. Stopword Proses stopword bertujuan untuk menghilangkan kata kata umum yang sering muncul. Sistem akan mengambil data dari file stopwords.txt, kemudian sistem akan mengecek apakah data pada file stopword.txt ada di data tweet, jika ada kata yang terkandung dalam data tweet tersebut maka kata tersebut akan dihapus.

89 70 Gambar 4. 4 Source code Stopword (Rarasati, 2015) 3. Stemming Proses stemming ialah mencari kata dasar dengan menghilangkan imbuhan pada suatu kata. Proses dilakukan dengan menghapus awalan dan akhiran. Dalam proses ini, program dibantu dengan kamus kata dasar. Berikut merupakan implementasi program stemming : Gambar 4. 5 Source code Stemming (Rarasati,2015) 4. Penanganan Sinonim Kata yang terkandung di dalam data tweet mengandung kata umum yang sering digunakan, oleh karena itu proses penanganan sinonim ini dilakukan untuk mendeteksi kata yang memiliki makna sama pada tweet. Berikut implementasi penanganan sinonim :

90 71 Gambar 4. 6 Kamus Kata Sinonim Gambar 4. 7 Source code Penanganan Sinonim (Rarasati, 2015) Pada gambar 4.7 merupakan implementasi tahap penanganan sinonim. Pada penanganan sinonim ini sistem akan membandingkan data tweet dengan kamus sinonim, jika data tweet terdapat dalam kamus sinonim, maka sistem akan mengenali sebagai kata unik. 5. Pembobotan Tahap selanjutnya ialah tahap pembobotan menggunakan tf-idf, dimana pada tahap ini akan menghitung bobot tweet yaitu pertama menghitung frekuensi kata dari tiap kata pada tiap tweet kemudian mengalikannya dengan idf. Berikut implementasi pembobotan tf-idf :

91 72 Gambar 4. 8 Source code Pembobotan (Rarasati,2015) 6. Normalisasi Setelah menghitung bobot kata tiap tweet, selanjutnya data di normalisasi. Normalisasi dilakukan agar tidak ada nilai yang mendominasi. Normalisasi yang digunakan yaitu normalisasi Z-Score dan normalisasi min max. Normalisasi ini dilakukan terpisah untuk mengetahui normalisasi yang lebih cocok pada penelitian ini. a. Normalisasi Min Max Berikut implementasi normalisasi min- max : Gambar 4. 9 Source code Normalisasi Min Max b. Normalisasi Z-Score Berikut implementasi normalisasi Z-Score :

92 73 Gambar Source code Normalisasi Z-Score Pengujian Sistem 1. Perhitungan Jarak Setelah data dinormalisasi, selanjutnya dilakukan perhitungan jarak antar setiap data tweet. Perhitungan jarak yang digunakan ialah perhitungan jarak menggunakan euclidean distance dan perhitungan jarak menggunakan cosine similarity. Perhitungan jarak ini dilakukan terpisah agar mengetahui perhitungan jarak yang cocok untuk penelitian ini. a. Euclidean distance Berikut implementasi perhitungan jarak menggunakan euclidean distance Gambar Source code Hitung Jarak Euclidean b. Cosine similarity Berikut implementasi perhitungan jarak menggunakan cosine similarity

93 74 Gambar Source code Hitung Jarak Cosine 2. Agglomerative Hierarchical Clustering Setelah mengukur jarak setiap tweet, selanjutnya data akan dikelompokkan menggunakan Agglomerative hierarchical clustering. Agglomerative hierarchical clustering dibagi menjadi tiga metode yaitu single linkage, complete linkage, dan average linkage. Metode pengelompokkan AHC ini dilakukan terpisah agar mengetahui metode yang cocok untuk penelitian ini. Berikut implementasi AHC :

94 75

95 76 Gambar Source code AHC 3. Output Hasil setiap metode AHC akan ditampilkan dalam tabel yang berisi hasil prediksi dan dendrogram. Gambar Gambar Output Hasil

96 77 4. Akurasi Pada penelitian ini, perhitungan akurasi yang digunakan ialah Confusion Matrix. Hasil prediksi akan dibandingkan dengan label aktual. Banyaknya kecocokan antara prediksi dan label aktual akan mempengaruhi tingkat akurasi sistem. Berikut implementasi proses perhitungan Confusion Matrix : Gambar Source code Confusion Matrix Gambar Hasil Implementasi Confusion Matrix

97 Pengujian Data Baru Pada pengujian data baru data yang diuji ialah data tweet yang tidak digunakan untuk data training pada proses sebelumnya. Data baru tersebut diproses melalui tahap preprocessing, kemudian program akan menentukan tweet termasuk pada cluster cinta, marah, senang, sedih, atau takut. Penentuan pengelompokkan dilakukan dengan cara mengukur jarak kedekatan antara data baru dengan centroid tiap cluster. Gambar 4.17 menunjukkan contoh tweet yang digunakan sebagai data baru. Menurut prediksi, data baru termasuk dalam cluster cinta. Hasil prediksi ditunjukkan pada Gambar Gambar Contoh Tweet Uji Gambar Hasil Tweet Uji

98 Hasil & Analisis Hasil Pada penelitian ini, data yang digunakan sebanyak 500 data tweet dari 100 data masing masing emosi. Untuk pengelompokkan tweet, tahap pertama yang dilakukan ialah preprocessing. Preprocessing terdiri dari tokenizing untuk memisahkan kalimat tweet menjadi tiap - tiap kata dan menghilangkan tanda baca, stopword untuk menghapus kata yang umum, stemming untuk mencari kata dasar dari kata berimbuhan. Setelah melakukan stemming, kata kata unik yang tersaring akan diberi bobot menggunakan pembobotan TF-IDF. Pembobotan ini bertujuan menghitung frekuensi kemunculan kata pada tiap data tweet, sehingga kata yang lebih sering muncul pada suatu tweet dianggap lebih penting. Frekuensi kemunculan kata unik perlu dibatasi. Kemudian melakukan proses normalisasi data, pada penelitian ini menggunakan normalisasi min - max dan normalisasi z-score. Hal ini dilakukan agar dapat mengetahui normalisasi yang paling optimal. Setelah melakukan normalisasi data, kemudian masuk pada proses Agglomerative Hierarchical Clustering (AHC) dalam tiga metode(single linkage, complete linkage, average linkage). Masing masing metode menggunakan euclidean distance dan cosine similarity untuk perhitungan jarak. Sejalan dengan proses AHC, setiap pengelompokkan diuji dengan Confusion Matrix, dimana data prediksi dibandingkan dengan data actual kemudian dikalikan dengan 100%. Berikut langkah langkah percobaan yang dilakukan : 1. Menentukan jumlah cluster=5. Sesuai dengan emosi yang telah ditentukan. 2. Data tweet= Menginputkan batas atas dan batas bawah yang pada akhirnya sangat menentukan tingkat akurasi 4. Memilih normalisasi (min max atau z-score) 5. Memilih perhitungan jarak (euclidean distance atau cosine similarity) 6. Memilih metode AHC (single linkage, complete linkage, average linkage)

99 Akurasi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 80 Sebelum masuk pada tahap normalisasi, frekuensi kemunculan kata perlu dibatasi. Frekuensi kemunculan kata dengan batas atas = 85 dan batas bawah = 2 menghasilkan pengelompokkan yang baik sehingga batas atas = 85 dan batas bawah = 2 digunakan untuk percobaan ini. Hasil dari percobaan dapat dilihat pada tabel dan gambar berikut : 1. Percobaan tanpa normalisasi Tabel 4. 1 Tabel Percobaan tanpa normalisasi dengan batas atas = 85 dan batas bawah =2 No Perhitungan Jarak AHC Akurasi 1. Euclidean Distance Average Linkage Euclidean Distance Single Linkage Euclidean Distance Complete Linkage Cosine Similarity Average Linkage Cosine Similarity Single Linkage Cosine Similarity Complete Linkage Percobaan Tanpa Normalisasi dengan batas atas = 85 dan batas bawah = euclidean - average euclidean - single euclidean - complete cosine - average Perhitungan jarak - Metode AHC cosine -single cosine - complete Tanpa Normalisasi 2 3 Gambar Grafik percobaan tanpa normalisasi

100 81 Tabel 4.1 menunjukkan hasil percobaan tanpa menggunakan normalisasi. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency = 2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 34.4 % dengan menggunakan perhitungan jarak euclidean distance dan metode AHC average linkage, complete linkage, single linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi : a. Dendrogram - Average linkage Gambar Dendrogram data tanpa normalisasi average linkage

101 82 b. Confusion Matrix - Average linkage Tabel 4. 2 Confusion matrix data tanpa normalisasi average linkage Cluster tweet Akurasi == x 100% = 34.4% Percobaan menggunakan normalisasi min max Tabel 4. 3 Tabel Percobaan normalisasi min - max dengan batas atas = 85 dan batas bawah =2 No Perhitungan Jarak AHC Akurasi 1. Euclidean Distance Average Linkage 20,2 2. Euclidean Distance Single Linkage 20,2 3. Euclidean Distance Complete Linkage 22,8 4. Cosine Similarity Average Linkage 21,2 5. Cosine Similarity Single Linkage 20,2 6. Cosine Similarity Complete Linkage 21,4

102 Akurasi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 83 Percobaan Normalisasi Min-Max dengan batas atas = 85 dan batas akhir = Euclidean - Average Euclidean - Single Euclidean - Complete Cosine - Average Cosine - Single Cosine - Complete Perhitungan Jarak - Metode AHC Normalisasi Min-Max Column2 Column3 Gambar Grafik percobaan normalisasi min max Tabel 4.3 menunjukkan hasil percobaan menggunakan normalisasi min-max. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency = 2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 22,8 % dengan menggunakan perhitungan jarak euclidean distance dan metode AHC complete linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi : a. Dendrogram - Complete linkage

103 84 Gambar Dendrogram data normalisasi min max complete linkage b. Confusion Matrix - Complete linkage Tabel 4. 4 Confusion matrix data normalisasi min max complete linkage Cluster tweet Akurasi == x 100% = 22,8% 500

104 Akurasi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Percobaan menggunakan normalisasi z-score Tabel 4. 5 Tabel Percobaan normalisasi z-score dengan batas atas = 85 dan batas bawah =2 No Perhitungan Jarak AHC Akurasi 1. Euclidean Distance Average Linkage Euclidean Distance Single Linkage Euclidean Distance Complete Linkage Cosine Similarity Average Linkage Cosine Similarity Single Linkage Cosine Similarity Complete Linkage Percobaan Normalisasi ZScore dengan menggunakan batas atas= 85 dan batas akhir = Euclidean - Average Euclidean - Single Euclidean - Complete Cosine - Average Cosine - Single Cosine - Complete Perhitungan Jarak - Metode AHC Normalisasi Zscore Column1 Column2 Gambar Grafik percobaan normalisasi z-score Tabel 4.5 menunjukkan hasil percobaan menggunakan normalisasi z-score. Percobaan dilakukan dengan memasukkan batas atas = 85 dan batas bawah = 2, serta mengubah-ubah perhitungan jarak dan metode AHC. Batas atas dan batas bawah merupakan batas yang digunakan untuk membatasi total hasil term frequency yang terdapat pada kata unik. Batas atas = 85 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan kurang dari 85, maka sistem akan membatasi maksimal term frequency = 85. Batas bawah = 2

105 86 berarti kata unik yang digunakan hanyalah kata yang mempunyai jumlah kemunculan lebih dari 2, maka sistem akan membatasi minimal term frequency = 2. Akurasi tertinggi ditandai dengan warna biru yaitu sebesar 81.6 % dengan menggunakan perhitungan jarak cosine similarity dan metode AHC average linkage. Berikut dendrogram dan confusion matrix dari akurasi tertinggi : b. Dendrogram - Average linkage Gambar Dendrogram data normalisasi z-score average linkage c. Confusion Matrix - Average linkage Tabel 4. 6 Confusion matrix data normalisasi z-score average linkage Cluster tweet

106 Akurasi PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Akurasi == x 100% = 81.6% 500 Berikut grafik keseluruhan percobaan dengan menggunakan batas atas = 85 dan batas bawah = 2 : Percobaan menggunakan batas atas = 85 dan batas bawah = Euclidean Euclidean Euclidean - - Average - Single Complete Cosine - Average Cosine - Single Cosine - Complete Tanpa Normalisasi 34,4 34,4 34,4 21,4 20,2 21,8 Normalisasi Z-Score 34,4 34,4 34,4 81,6 20,2 54 Normalisasi Min - Max 34,8 34,4 35,6 50,6 20,2 36,8 Perhitungan jarak & metode AHC Tanpa Normalisasi Normalisasi Z-Score Normalisasi Min - Max Gambar Grafik percobaan menggunakan batas atas=85 dan batas bawah =2 Melalui Gambar 4.25 dapat disimpulkan bahwa pengelompokkan paling optimal berada pada percobaan menggunakan batas atas = 85 dan batas bawah = 2 dengan normalisasi z-score, perhitungan jarak cosine similarity dan metode AHC average linkage.

107 User Interface Dalam pembuatan user interface, sistem menggunakan matlab. Bab ini mengimplementasikan user interface untuk melakukan preprocessing hingga mengetahui akurasi dari pengelompokkan data dengan Agglomerative Hierarchical Clustering. Gambar berikut merupakan tampilan keseluruhan sistem: Gambar User Interface Sistem Dari gambar diatas, langkah pertama pengguna ialah menginputkan banyaknya data yang diinginkan, maksimal banyaknya data ialah 500, kemudian menekan tombol Preprocessing, untuk melihat kata-kata unik yang digunakan dalam proses, maka seluruh kata unik akan muncul beserta dengan jumlah dan nilai terbesar serta terkecil. Setelah itu akan ada pemberitahuan bahwa proses preprocessing telah berhasil. Maka langkah selanjutnya pengguna memasukkan batas atas dan batas bawah, kemudian memilih perhitungan jarak, memilih jenis normalisasi dan memilih jenis clusteringnya, kemudian setelah itu menekan tombol Clustering. Maka muncul keseluruhan proses, dendrogram, hasil cluster yang terbentuk, Confusion Matrix dan akurasi.

108 BAB V PENUTUP Bab ini berisi mengenai kesimpulan dan saran. Kesimpulan berisi mengenai hal yang berkaitan dengan pengelompokkan tweet, dan saran berisi mengenai pengembangan sistem. 5.1 Kesimpulan Berdasarkan hasil penelitian, analisis sentimen data twitter menggunakan Agglomrative Hierarchical Clustering dengan data tweet berjumlah 500 dan cluster = 5, diperoleh kesimpulan sebagai berikut : 1. Agglomerative Hierarchical Clustering dapat mengelompokkan data untuk analisis sentimen data twitter dengan optimal dengan menunjukkan tingkat akurasi tertinggi dalam percobaan pengelompokkannya 2. Tingkat akurasi tertinggi berada pada batas atas dengan jumlah kata unik sebesar 85, batas bawah dengan jumlah kata unik sebesar 2, menggunakan normalisasi z-score, menggunakan perhitungan jarak cosine dan metode AHC average linkage yaitu 81,6%. 89

109 Saran Berikut ini saran yang dapat membantu penelitian ini agar lebih baik dan berkembang, antara lain : 1. Bahasa yang terkandung didalam kalimat tweet - tweet tidak hanya bahasa Indonesia. 2. Data yang digunakan lebih banyak sehingga dapat mencakup lebih banyak kosakata dan pengenalan emosi menjadi lebih akurat. 3. Metode AHC dapat dicoba dengan metode lain selain single linkage, average linkage, dan complete linkage. 4. Perhitungan jarak dapat dicoba dengan perhitungan jarak lain selain euclidean distance dan cosine similarity. 5. Metode normalisasi dapat dicoba dengan metode lain selain min max dan z-score. 6. Perhitungan akurasi dapat dicoba dengan perhitungan lain selain confusion matrix

110 91 Daftar Pustaka Agusta,L. (2009). Perbandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adrian untuk Stemming dokumen teks bahasa Indonesia. Konferensi Nasional sistm dan informatika. Bali. Budhi, G.S., Rahardjo, A.I.,& Taufik, H, 21 Juni 2008, Hierarchical Clustering untuk aplikasi automated text integration, Seminar Nasional Aplikasi Teknologi Informasi, Universitas Kristen Petra Jurusan Teknik Informatika, Surabaya. Dragut, E., Fang, F., Sistla, P., Yu, S. & Meng, W Stop Word and Related Problems in Web Interface Integration. Diakses dari Diakses pada 20 November Goleman, D. (2006). Emotional Intelligenve : Kecerdasan emosional, Mengapa EI lebih penting dari IQ. Jakarta : P.T. Gramedia Pustaka Utama Harlian, Milkha., (2006). Text Mining. Di akses dari Diakses pada 1 November 2016 Hartini, E. (2012). Metode Clustering Hirarki. Diakses dari Diakses pada 9 Oktober 2016 Kohavi dan Provost,. (1998)., Confusion Matriks. Diakses dari 0Matriks.pdf, Diakses pada 5 November 2016 Kurniawan, Aloysius Ary. (2017). Implementasi Algoritma Agglomerative Hierarchical Clustering Untuk Mengelompokkan Capaian Belajar Siswa SD. Skripsi. Universitas Sanata Dharma

111 92 Liu,B. (2012)., Sentimen Analysis and Opinion Mining., Morgan & Claypool Publishers. Diakses dari OpinionMining.pdf. Di akses pada 18 September 2016 Mandala, R., dan Setiwan, H. ( 2004)., Peningkatan Performannsi Sistem temu Kembali Informasi dengan perluasan Query secara otomatis. Bandung, Indonesia : Institut Teknologi Bandung. Manning,C.D., raghavan, P., & Schutze, H (2009). An Introduction too Information Retrieval. Cambridge: Cambridge University Press. Diakses dari Diakses pada 10 September Mustaffa,Z., Yusof, Y. (2011). A Comparison of Normalization Techniques in Predicting Dengue Outbreak International Conference on Bussiness and Economic Research, hal Kuala Lumpur: IACSIT Press Nazief, B., dan Mirna Adriani.,(2007), Confix-Stripping : Approach to Stemming algorithm for bahasa Indonesia, Faculty of computer science university of Indonesia. Nugroho, Gregorius A.P,.(2016)., Analisis Sentimen Twitter menggunakan K- Means. Skripsi. Universitas Sanata Dharma Nur,M.Y.,dan Santika,D.D,.(2011), Analisis Sentimen pada Dokumen berbahasa Indonesia dengan pendekatan Suport Vector Machine. Konferensi Nasional Sistem dan Informatika. Universitas Bina Nusantara, Jakarta. Pang,B dan Lee,L. (2008). Opinion Mining and Sentimen Analysis, Foundations and Trends in Information Retrieval, vol. Volume 2, no. Issue 1-2,pp Prasetyo, E. ( 2014 ), Data Mining : Pengelolahan Data menjadi infromasi menggunakan matlab. Andi Yogyakarta. Rarasati, Dionisia B.(2015). Pengelompokkan Tema Lirik Lagu Menggunakan Metode K-Means Clustering. Skripsi. Universitas Sanata Dharma

112 93 Shaver, P.R., Murdaya,U.,& Fraley, R.C.(2001). Structure of Indonesian Emotion Lexicon. Asian Journal of Psychology,4, Tala, Fadillah Z. (2003). A Study of Stemming Efects on Information Retrieval in Bahasa Indonesia. Institute for Logic, Language and ComputationUniversiteit van Amsterdam The Netherlands. Diakses dari Diakses pada 29 November Tan,P.N., Steinbach,M.,& Kumar,V. (2006). Introduction to Data Mining. Boston : Pearson Addison Wesley Yang, Y., dan Liu, X. (1999). A Re-examination of Text Categorization Methods. Proceedings of SIGIR-99, 22nd ACM International Conference on Research and Development in Information Retrieval: di akses 1 September 2016

113 LAMPIRAN 1. Uji Validitas Sistem menggunakan 15 data a. Perhitungan Manual menggunakan Excel Berikut data perhitungan manual menggunakan excel dengan 15 data, data 1,2, dan 3 merupakan cluster 1. Data 4,5,6 merupakan cluster 2. Data 7,8, dan 9 merupakan cluster 3. Data 10,11, dan 12 merupakan cluster 4. Data 13,14, dan 15 merupakan cluster 5. Data 1 kan ku berikan kau SENJA iya SENJA SENandung manja agar kau merasakan betapa tulusnya sayang ku kamu itu SENJA! SEksi dan manja buat aku juga jadi SENJA! 2 SEmangat menjalin cinta 3 Ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu 4 Pramuka keren gembira asik. Selalu ceria bersama pramuka 5 Ketika anak-anak ceria Hati ku jadi gembira 6 Bahagia itu melihat dia bisa tersenyum riang gembira. Anies oh anies... Demi jabatan Gubernur semua dihalalkan... Disitu 7 kadang saya merasa sedih 8 Ya Allah beneran sedih banget ini keluar dari mulut Anies Gue sebenarnya sangat sedih sekali mengapa Kubu Anies Baswedan 9 begitu tega menyakiti hati Gue Ya Tuhan.. Serem banget angin di luar... #takut 11 SENDIRIAN DIRUMAH.. SEREM AMAT #TAKUT 12 Ada yang nangis tapi ga ada orang yah,ih serem #takut 13 kesal hati jengkel gue lembur mulu Dari tadi di jahilin terus sama dia di buat marah kesel jengkel Sampai lupa 14 hari sangat jengkel dan kesal. Dan kami berharap setelah itu ia akan berhenti 15 menjahili orang-orang 94

114 95 TOKENIZING kan ku berikan kau senja iya senja senandung manja agar kau merasakan 1 betapa tulusnya sayang ku kamu itu senja seksi dan manja buat aku juga jadi senja semangat 2 menjalin cinta 3 ditepi senja yang mulai beranjak pergi ini ku titip kan cinta ku untuk mu 4 pramuka keren gembira asik selalu ceria bersama pramuka 5 ketika anak anak ceria hati ku jadi gembira 6 bahagia itu melihat dia bisa tersenyum riang gembira anies oh anies demi jabatan gubernur semua dihalalkan disitu kadang saya 7 merasa sedih 8 ya allah beneran sedih banget ini keluar dari mulut anies gue sebenarnya sangat sedih sekali mengapa kubu anies baswedan begitu 9 tega menyakiti hati gue 10 ya Tuhan serem banget angin di luar takut 11 sendirian dirumah serem amat takut 12 ada yang nangis tapi ga ada orang yah ih serem takut 13 kesal hati jengkel gue lembur mulu dari tadi di jahilin terus sama dia di buat marah kesal jengkel sampai lupa 14 hari sangat jengkel dan kesal dan kami berharap setelah itu ia akan berhenti 15 menjahili orang orang STOPWORD 1 senja senja senandung manja merasakan tulusnya sayang 2 senja seksi manja senja semangat menjalani cinta 3 senja beranjak pergi cinta 4 pramuka keren gembira asik selalu ceria bersama pramuka 5 ceria hati gembira 6 bahagia melihat tersenyum riang gembira 7 demi jabatan dihalalkan merasa sedih 8 beneran sedih keluar 9 sebenarnya sedih kubu tega menyakiti hati 10 serem angin takut 11 sendirian serem takut 12 nangis serem takut 13 kesal hati jengkel lembur 14 jahilin marah kesal jengkel lupa 15 jengkel kesal berharap berhenti menjahili

115 96 STEMMING 1 senja senja senandung manja rasa tulus sayang 2 senja seksi manja senja semangat jalan cinta 3 senja pergi cinta 4 pramuka keren gembira asik selalu ceria pramuka 5 ceria hati gembira 6 bahagia senyum riang gembira 7 demi jabatan halal rasa sedih 8 sedih 9 sedih kudu tega sakit hati 10 serem angin takut 11 serem takut 12 nangis serem takut 13 kesal hati jengkel lembur 14 jahil marah kesal jengkel lupa 15 jengkel kesal harap henti jahil TF 1 senja = 2 senandung = 1 manja = 1 rasa = 1 tulus =1 sayang =1 2 senja = 2 seksi =1 manja =1 semangat =1 jalan =1 cinta =1 3 senja =1 pergi =1 cinta =1 gembira 4 pramuka =2 keren =1 =1 asik =1 selalu=1 ceria =1 gembira 5 ceria =1 hati =1 =1 6 bahagia = 1 senyum =1 riang =1 gembira =1 7 demi =1 jabatan =1 halal =1 rasa =1 sedih =1 8 sedih =1 9 sedih =1 kudu = 1 tega =1 sakit =1 hati =1 10 serem =1 angin =1 takut =1 11 serem =1 takut =1 12 nangis =1 serem =1 takut=1 13 kesal = 1 hati =1 jengkel =1 lembur =1 14 jahil = 1 marah =1 kesal =1 jengkel =1 lupa =1 15 jengkel =1 kesal =1 harap=1 jhenti=1 jahil=1

116 97 Kata Unik df D D/DF IDF 1 senja , senandung , manja ,5 0, rasa ,5 0, tulus , seksi , semangat , jalan , cinta , pergi , pramuka ,5 0, keren , gembira ,5 0, asik , selalu , hati , rasa , senyum , riang , demi , jabatan , halal , sedih , kudu , tega , sakit , serem , angin , takut , nangis , lembur , jahil ,5 0, marah , , lupa , harap , henti ,

117 98 Sinonim cinta = sayang gembira = ceria = bahagia kesal = jengkel = marah

118 99 Bobot setiap data ATRIBUT Data senja Senandung manja rasa tulus seksi Semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum 1 0,954 1,176 0,875 0,875 1,176 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,908 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,750 1,176 0,796 1,176 1,176 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 1, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

119 100 Atribut Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti 1 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 1,176 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,699 1,176 1,176 1,176 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0,699 1,176 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,000 0,662 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,875 0,993 1,176 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,176 0,662 0,000 1,176 1,176

120 101 Normalisasi Z-score Warna merah menunjukkan hasil normalisasi. Atribut Data senja senandung manja rasa tulus seksi semangat jalan cinta pergi pramuka keren gembira asik selalu hati rasa senyum 1 0,954 0,616 0,875 0,875 0,616 0,000 0,000 0,000 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,875 0,000 0,000 1,176 1,176 1,176 0,699 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,477 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,616 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0,917 0,796 0,917 0,917 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,417 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,796 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,917 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,699 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0, ,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000

121 102 Normalisasi Z-score Atribut Data riang demi jabatan halal sedih kudu tega sakit serem angin takut nangis lembur jahil marah lupa harap henti

122 103 Matriks Jarak menggunakan Cosine similarity ,45 0, , ,20 0, , , , ,45 0, , , ,73 0, , ,39 0, , Pengelompokkan menggunakan AHC dengan metode Average linkage ,45 0, , ,20 0, , , , ,45 0, , , ,73 0, , ,39 0, ,

123 ,45 0, ,00 0,00 0,00 0, , ,00 0,00 0,00 0, ,00 0,00 0,00 0, ,20 0, ,00 0,00 0,00 0, , ,32 0 0,00 0,53 0,00 0, ,00 0,00 0,00 0, ,45 0,17 0 0,00 0,00 0,00 0, ,37 0 0,00 0,00 0,00 0, ,00 0,23 0,00 0, ,68 0,00 0,00 0, ,00 0,00 0,00 0, ,00 0,39 0, ,00 0, , ,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 3 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00 0,00 5 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00 0,00 6 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 7 1,00 0,45 0,17 0,00 0,00 0,00 0,00 8 1,00 0,37 0,00 0,00 0,00 0,00 9 1,00 0,00 0,23 0,00 0, ,00 0,00 0,00 0, ,00 0,39 0, ,00 0, ,00

124 ,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9, , ,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,20 0,21 0,00 0,00 0,00 0,00 0,00 0,00 5,00 1,00 0,27 0,00 0,00 0,32 0,00 0,53 0,00 6,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 7,00 1,00 0,45 0,17 0,00 0,00 0,00 8,00 1,00 0,37 0,00 0,00 0,00 9,00 1,00 0,00 0,23 0, ,00 0,00 0,00 13,00 1,00 0, ,00 5 1,00 2,00 3,00 4, ,00 7,00 8,00 9, ,00 1,00 0,45 0,47 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 1,00 0,36 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 3,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0, ,00 0,13 0,00 0,00 0,27 0,00 0,17 6,00 1,00 0,00 0,00 0,00 0,00 0,00 7,00 1,00 0,45 0,17 0,00 0,00 8,00 1,00 0,37 0,00 0,00 9,00 1,00 0,00 0, ,00 0, ,00

125 ,00 4, ,00 7,00 8,00 9, ,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,10 0,21 0,00 0,00 0,00 0,00 0, ,00 0,10 0,21 0,00 0,00 0,00 0,00 6,00 1,00 0,00 0,00 0,00 0,00 0,00 7,00 1,00 0,45 0,17 0,00 0,00 8,00 1,00 0,37 0,00 0,00 9,00 1,00 0,00 0, ,00 0, , ,00 4, , , ,00 0,41 0,00 0,00 0,00 0,00 0,00 0,00 0,00 2,00 1,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,10 0,21 0,00 0,00 0,00 0, ,00 0,10 0,10 0,00 0,00 0,00 6,00 1,00 0,00 0,00 0,00 0, ,00 0,27 0,00 0,00 9,00 1,00 0,00 0, ,00 0, , , , , ,00 0,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,10 0,21 0,00 0,00 0,00 0, ,00 0,10 0,10 0,00 0,00 0,00 6,00 1,00 0,00 0,00 0,00 0, ,00 0,27 0,00 0,00 9,00 1,00 0,00 0, ,00 0, ,00

126 , , ,00 0,00 0,00 0,00 0,00 0,00 0,00 4,00 1,00 0,10 0,21 0,00 0,00 0, ,00 0,10 0,05 0,00 0,00 6,00 1,00 0,00 0,00 0, ,00 0,00 0, ,00 0, , ,00 0,00 0,00 0,00 0,00 0, ,00 0,10 0,00 0,00 0, ,00 0,05 0,00 0, ,00 0,00 0, ,00 0, , ,00 0,00 0,00 0,00 0, ,00 0,03 0,00 0, ,00 0,00 0, ,00 0, ,00

127 108 Dendrogram Hasil Cluster : Cluster 1 : Data 1, Data 2, dan Data 3 Cluster 2 : Data 4, Data 5, Data 6, dan Data 13 Cluster 3 : Data 7, Data 8 dan Data 9 Cluster 4 : Data 10. Data 11, dan Data 12 Cluster 5 : Data 14 dan Data 15

128 109 Confusion Matriks Cluster tweet Akurasi == x 100% = 93.3% 15 b. Pengujian menggunakan sistem dengan perhitungan jarak cosine similarity, normalisasi Z-score dan metode Average linkage No Batas Atas Batas Bawah Akurasi % % % % % %

129 110 Berikut Dendrogram dan Confusion matriks dari hasil clustering menggunakan batas atas = 4 dan batas bawah = 2. Dendrogram Confusion Matriks Cluster tweet Akurasi == x 100% = 100% 15

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT

IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT IMPLEMENTASI METODE SUPPORT VECTOR MACHINES UNTUK PENCARIAN INFORMASI BUKU RIKI HIDAYAT 10108371 Latar Belakang Masalah 1. Jumlah buku yang semakin banyak. 2. Belum adanya sistem pencarian informasi buku

Lebih terperinci

BAB 2 LANDASAN TEORI. 2.1 Text mining

BAB 2 LANDASAN TEORI. 2.1 Text mining BAB 2 LANDASAN TEORI Bab ini akan membahas landasan teori, penelitian terdahulu, kerangka pikir, dan hipotesis yang mendasari penyelesaian permasalahan dalam pengklasifikasian novel menggunakan TF-IDF.

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Peringkas Teks Otomatis Berikut ini akan dibahas mengenai teori-teori peringkas teks otomatis dalam beberapa subbab, yaitu sebagai berikut: 2.1.1 Definisi Peringkas Teks Otomatis

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Plagiarisme Menurut Peraturan Menteri Pendidikan RI Nomor 17 Tahun 2010 dikatakan: "Plagiat adalah perbuatan sengaja atau tidak sengaja dalam memperoleh atau mencoba memperoleh

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak

Self Organizing Map-Neural Network untuk Pengelompokan Abstrak 160 ISSN: 2354-5771 Self Organizing Map-Neural Network untuk Pengelompokan Abstrak Self Organizing Map - Neural Network for Abstract Clustering Fajar Rohman Hariri* 1, Danar Putra Pamungkas 2 1,2 Universitas

Lebih terperinci

SISTEM TEMU BALIK INFORMASI

SISTEM TEMU BALIK INFORMASI SISTEM TEMU BALIK INFORMASI Algoritma Nazief dan Adriani Disusun Oleh: Dyan Keke Rian Chikita Agus Dwi Prayogo 11/323494/PA/14356 11/323813/PA/14362 11/323856/PA/14367 PRODI S1 ILMU KOMPUTER JURUSAN ILMU

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Dasar Teori 2.1.1. Kuis Online Kuis, sebagaimana didefinisikan oleh WordWeb Online (2005) adalah "sebuah ujian yang berisi pertanyaan singkat". QuestionMark & League (2004)

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN :

Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 Edisi.1 Volume. 1 Bulan AGUSTUS ISSN : Jurnal Ilmiah Komputer dan Informatika (KOMPUTA) 1 IMPLEMENTASI METODE VECTOR SPACE MODEL (VSM) UNTUK REKOMENDASI NILAI TERHADAP JAWABAN ESSAY Harry Septianto Teknik Informatika Universitas Komputer Indonesia

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Kata Pengertian kata secara sederhana adalah sekumpulan huruf yang mempunyai arti. Dalam kamus besar bahasa indonesia (KBBI) pengertian kata adalah unsur bahasa yang diucapkan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging. 2.1 Rekomendasi Tag Rekomendasi

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Information Retrieval System Sistem temu kembali informasi ( information retrieval system) merupakan sistem yang dapat digunakan untuk menemukan informasi yang relevan dengan

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING

IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING IMPLEMENTASI MODIFIKASI ENHANCED CONFIX STRIPPING STEMMER UNTUK BAHASA INDONESIA DENGAN METODE CORPUS BASED STEMMING DOSEN PEMBIMBING Diana Purwitasarti, S.Kom., M.Sc. MAHASISWA Andita Dwiyoga T (5106

Lebih terperinci

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang)

IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) JURNAL TEKNIK INFORMATIKA VOL.10 NO.2, 2017 109 IMPLEMENTASI ALGORITMA MULTINOMIAL NAIVE BAYES CLASSIFIER PADA SISTEM KLASIFIKASI SURAT KELUAR (Studi Kasus : DISKOMINFO Kabupaten Tangerang) Dea Herwinda

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize PERANCANGAN DAN ANALISIS CLUSTERING DATA MENGGUNAKAN METODE SINGLE LINKAGE UNTUK BERITA BERBAHASA INGGRIS DESIGN AND ANALYSIS OF DATA CLUSTERING USING SINGLE LINKAGE METHOD FOR ENGLISH NEWS Fachri Nugraha

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISTEM 3.1 Analisis Sistem 3.1.1 Analisis Masalah Dilihat dari sistem yang sedang berjalan saat ini sistem pencarian yang berlaku masih manual, dimana pengunjung perpustakaan

Lebih terperinci

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR

IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR IMPLEMENTASI ALGORITMA SUPPORT VECTOR MACHINE (SVM) UNTUK ANALISA SENTIMEN PADA KALIMAT OPINI BERBAHASA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS

PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS PENERAPAN ALGORITMA STEMMING NAZIEF & ADRIANI DAN SIMILARITY PADA PENERIMAAN JUDUL THESIS Hafiz Ridha Pramudita Magister Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman,

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi komputer khususnya di jaringan Internet telah berkembang dengan sangat cepat. Semua orang dapat saling bertukar dan mendapatkan informasi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sentimen Analisis Analisis sentimen juga dapat dikatakan sebagai opinion mining. Analisis sentimen dapat digunakan dalam berbagai kemungkian domain, dari produk konsumen, jasa

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PORTER DENGAN ALGORITMA NAZIEF & ADRIANI UNTUK STEMMING DOKUMEN TEKS BAHASA INDONESIA Ledy Agusta Fakultas Teknologi Informasi Universitas Kristen Satya Wacana ledyagusta@gmail.com

Lebih terperinci

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Teknologi informasi yang semakin berkembang dari masa ke masa telah membuktikan akan kebutuhan manusia pada informasi itu sendiri. Berbagai situs, portal berita, website,

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG

JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNIK UNIVERSITAS MUHAMMADIYAH MALANG KLASIFIKASI ENTERTAINER BERDASARKAN TWEET MENGGUNAKAN METODE SCORING BERBASIS LEXICON BASED TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY

APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY APLIKASI PENDETEKSI KEMIRIPAN PADA DOKUMEN TEKS MENGGUNAKAN ALGORITMA NAZIEF & ADRIANI DAN METODE COSINE SIMILARITY Azhar Firdaus, Ernawati, dan Arie Vatresia Program Studi Teknik Informatika, Fakultas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Information Retrieval Perkembangan teknologi internet yang sangat pesat membuat pengguna harus dapat menyaring informasi yang dibutuhkannya. Information retrieval atau sistem

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Analisis dan perancangan berfungsi untuk mempermudah, memahami dan menyusun perancangan pada bab selanjutnya. Selain itu juga berfungsi untuk memberikan gambaran dan solusi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian tugas akhir ini ada beberapa tahapan penelitian yang akan dilakukan seperti yang terlihat pada gambar 3.1: Identifikasi Masalah Rumusan Masalah Studi Pustaka

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER

PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER PEMBANGUNAN APLIKASI REKOMENDASI BERITA BERBASIS PREFERENSI PENGGUNA TWITTER SKRIPSI Diajukan Untuk Memenuhi Sebagian Persyaratan Mencapai Derajat Sarjana Teknik Informatika Oleh : Suryatul Arifidin NIM

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori, penelitian terdahulu, dan kerangka pikir yang mendasari penyelesaian permasalahan stemming dengan menggunakan algoritma enhanced confix

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkas Teks Otomatis 2.1.1 Pengertian Konsep sederhana ringkasan adalah mengambil bagian penting dari keseluruhan isi dari artikel. Ringkasan adalah mengambil isi yang paling

Lebih terperinci

BAB 1 PENDAHULUAN Pengantar

BAB 1 PENDAHULUAN Pengantar BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas

Lebih terperinci

Klasifikasi Konten Berita Dengan Metode Text Mining

Klasifikasi Konten Berita Dengan Metode Text Mining JURNAL DUNIA TEKNOLOGI INFORMASI Vol. 1, No. 1, (2012) 14-19 14 Klasifikasi Konten Berita Dengan Metode Text Mining 1 Bambang Kurniawan, 1 Shril Effendi, 1 Opim Salim Sitompul 1 Program Studi S1 Teknologi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang BAB 1 PENDAHULUAN 1.1. Latar Belakang Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI PENGELOMPOKAN TEMA LIRIK LAGU MENGGUNAKAN METODE K-MEANS CLUSTERING (Studi Kasus : Radio Masdha Yogyakarta) SKRIPSI Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer Program Studi

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN 3.1. Desain Penelitian Desain penelitian merupakan tahapan yang akan dilakukan oleh penulis untuk memberikan gambaran serta kemudahan dalam melakukan penelitian. Berikut tahapan

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL Nur Rosyid M, Entin Martiana, Damitha Vidyastana, Politeknik Elektronika

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA

PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 aku@sigitt.com,

Lebih terperinci

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah

BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah Analisis Kebutuhan Analisis Masalah BAB 3 METODOLOGI 3.1 Analisis Kebutuhan dan Masalah 3.1.1 Analisis Kebutuhan Ada banyak hal yang berhubungan dengan sastra atau ilmu bahasa yang dapat diterapkan di dalam teknologi, seperti penerjemahan

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci