Identifikasi Komentar Spam Pada Instagram
|
|
|
- Yandi Budiono
- 8 tahun lalu
- Tontonan:
Transkripsi
1 Identifikasi Komentar Spam Pada Instagram Antonius Rachmat Chrismanto 1, Yuan Lukito 2 Program Studi Informatika, Fakultas Teknologi Informasi, Universitas Kristen Duta Wacana Jl. Dr. Wahidin Sudirohusodo 5-25, Yogyakarta, Indonesia 1 [email protected] 2 [email protected] Abstrak Spam pada Instagram (IG) umumnya berupa komentar yang dianggap mengganggu karena tidak berhubungan dengan foto atau video yang dikomentari. Spam pada komentar dapat menyebabkan beberapa dampak negatif seperti menyulitkan untuk mengikuti diskusi pada komentar yang dipenuhi oleh komentar spam dan menyebabkan seseorang tampak populer karena jumlah komentarnya banyak walaupun pada kenyataannya lebih banyak komentar yang berupa spam. Penelitian ini mencoba untuk membangun model yang dapat melakukan identifikasi komentar spam pada IG. Komentar pada IG berbentuk teks, sehingga pada penelitian ini digunakan metode-metode pengolahan teks. Untuk identifikasi digunakan metode Support Vector Machine (SVM). Data komentar yang digunakan pada penelitian ini dikumpulkan dari komentar-komentar pada foto atau video yang dibagikan oleh aktor dan artis Indonesia yang memiliki pengikut (follower) paling banyak di IG. Dari hasil penelitian didapatkan model identifikasi komentar spam dengan metode SVM menghasilkan tingkat akurasi 78,49% yang lebih baik jika dibandingkan dengan model pembanding yang menggunakan metode NB (77,25%). Penelitian ini juga menguji beberapa proporsi data pelatihan yang berbeda-beda dan hasilnya metode SVM tetap lebih baik dibandingkan dengan metode NB. Hasil lain dari penelitian ini adalah tahap pre-processing dan stemming yang harus disesuaikan terutama untuk dukungan terhadap pengolahan karakter-karakter unicode dan simbol-simbol khusus yang banyak ditemukan pada komentar-komentar di IG. Kata kunci: Identifikasi Spam, Komentar Spam, Instagram, Naive Bayes (NB), Support Vector Machine (SVM). Abstract Spam on Instagram (IG) is generally a comment that is considered as irritating because it does not relate to the photos or videos which were commented. Spam on comment section can cause some negative impacts such as making it difficult to follow the discussion on the posted status and making someone s photo or video looks very popular, commented by a lot of followers despite the fact that most of the comments are actually spam. This research tries to build a model that can identify spam comments on IG. The comment on IG is in text format, so in this research, we use text processing methods. We use Support Vector Machine (SVM) for spam identification. The comment data used in this study were collected from Indonesian actors and artists who are the most followed accounts in IG. We have tested the spam identification model using SVM method resulted in 78.49% of accuracy. This result is better than the baseline model using NB method (77.25%). This research also tested some of the different training data proportions and SVM remains better than NB. Another result of this research are some adaptations needed for preprocessing and stemming stages that must be customized to support Unicode characters and unique symbols that commonly found in IG comments section. Keywords: Spam Identification, Spam Comment, Instagram, Naive Bayes (NB), Support Vector Machine (SVM). 219
2 1. Pendahuluan Instagram (IG) merupakan media sosial berbasis foto/gambar terpopuler di dunia nomor 1, dan di urutan ke-6 untuk media sosial secara umum. Instagram dapat digunakan oleh siapapun tidak terkecuali oleh publik figur. Publik figur, terutama artis dan aktor banyak sekali yang menggunakan IG untuk berbagai keperluan terutama untuk berbagi mengenai aktivitas mereka, promosi, menjalin dan menjaga relasi dengan para penggemarnya. Dengan jumlah pengguna mencapai 500 juta serta 95 juta gambar & video yang diunggah setiap harinya, tentu hal ini sangat bermanfaat bagi para publik figur sebagai sarana promosi mereka. Para artis/aktor Indonesia juga tidak ketinggalan dengan menggunakan IG agar memperoleh banyak follower. Beberapa artis bahkan memiliki follower lebih dari 10 juta akun [1]. Para penggemar yang mem-follow artis idola tentu dapat memberikan like dan komentar pada setiap status terbaru yang dibuat oleh artis tersebut. Sayangnya tidak semua komentar pada status adalah komentar yang berkaitan dengan status yang dibagikan, banyak sekali komentarkomentar yang disebut komentar spam yang dibuat oleh para spammer yang jelas-jelas tidak berkaitan dengan status yang dibagikan. Para spammer menuliskan berbagai komentar tentang bisnis mereka (promo/berjualan), atau link spam, dan berbagai hal lain yang tentu sangat mengganggu. Berdasarkan latar belakang di atas, ternyata IG sendiri belum memiliki fitur deteksi atau penghapus komentar spam otomatis. Fitur yang sudah disediakan adalah fitur laporan suatu komentar adalah spam atau melalui aplikasi mobile untuk melakukan hide inappropriate comments terhadap komentar berbahasa Inggris berbasiskan kata-kata kunci yang sudah disediakan oleh IG, atau yang terakhir menonaktifkan komentar pada setiap status. Proses melaporkan komentar secara manual tentu sangat merepotkan karena harus dilakukan satu persatu. Cara lain yang dapat dilakukan untuk meminimalisasi komentar spam adalah dengan membuat profil IG menjadi privat. Hal ini tentu tidak mungkin dilakukan oleh para artis, karena jika dibuat privat maka tentu follower akan semakin sedikit. Pada penelitian ini masalah yang dibahas adalah bagaimana membangun model identifikasi komentar spam untuk bahasa Indonesia menggunakan algoritma Naive Bayes (NB) dan Support Vector Machine (SVM). Penelitian ini merupakan kelanjutan dari penelitian sebelumnya yang telah menghasilkan hasil bahwa algoritma NB mampu mencapai akurasi tertinggi 77,25 % untuk deteksi komentar spam di IG [2]. Penelitian mengenai penggunaan metode NB dan SVM yang digunakan dalam klasifikasi atau deteksi spam juga telah banyak dilakukan. Naive Bayes telah digunakan untuk mendeteksi klasifikasi teks karena mudah digunakan, performa baik, dan fleksibel, dan banyak pula yang melakukan berbagai peningkatan algoritma ini, seperti misalnya penggunaan informasi class negatif yang diterapkan pada NewsGroup dataset untuk meningkatkan performa NB, dan terbukti memiliki hasil yang meningkat [3]. Naïve Bayes juga telah digunakan pada klasifikasi spam pada dataset CERT yang memiliki hasil yang mirip dengan metode Auxiliary Features Method [4]. Pada penelitian analisis sentimen, Naïve Bayes juga telah digunakan dalam mendeteksi sentimen komentar pada Facebook Page Calon Presiden RI 2014 dan menghasilkan akurasi mencapai 82% [5]. SVM terbukti memiliki akurasi yang tinggi mencapai 96,3 % untuk mendeteksi spam, dan meningkat menjadi 98,01 % ketika dikombinasikan dengan algoritma k-means Clustering [6]. Ada pula penelitian yang menggabungkan SVM dan Naive Bayes guna mengklasifikasi teks ke folder secara otomatis dengan dataset sebesar (20 kategori) mampu menghasilkan akurasi rata-rata 80% dibandingkan dengan satu metode saja [7]. Hal ini membuktikan bahwa kedua metode tersebut juga memang dapat dan tepat diterapkan dalam klasifikasi komentar spam pada IG. Penelitian ini memiliki tujuan jangka pendek untuk membangun dataset komentar IG berbahasa Indonesia untuk artis ber-follower lebih dari 10 juta terpopuler guna mendapatkan dataset training untuk sistem supervised learning. Batasan masalah dari penelitian ini adalah (1) menggunakan data dari 10 artis Indonesia yang memiliki follower lebih dari 10 juta berdasarkan referensi dari [1], di mana setiap artis diambil 50 status terbaru dengan 50 komentar terbaru, (2) proses stemming menggunakan library Sastrawi Stemming dari Andi Librian, (3) hanya digunakan untuk deteksi komentar spam dalam bahasa Indonesia, (4) tool yang digunakan untuk analisis adalah RapidMiner 7.x. 220
3 2. Metode Penelitian Pada bagian ini akan dituliskan metode penelitian yang digunakan pada sub bab-sub bab berikutnya. Tahap secara keseluruhan dapat dilihat pada Gambar 1 Gambar 1. Flowchart dan Metode Penelitian 2.1. Tahap Pengumpulan Data Pada tahap ini dikumpulkan data status IG dan komentar dari 10 artis terpopuler dengan jumlah follower lebih besar sama dengan 10 juta. Setiap satu artis diambil 50 post terbaru dan dari setiap post diambil 50 komentar terbaru. Data 10 artis diambil dari sumber [1] Terkumpul data sejumlah 10 artis x 50 status x 50 komentar = data [2]. Data diambil dengan menggunakan tool Instagram Tool Grabber yang dikembangkan penulis berdasarkan pengembangan dan modifikasi dari tool PHP Instagram Grabber yang dapat diunduh secara gratis. Setelah tahap pengumpulan data tahap pemrosesan selanjutnya dilakukan seperti pada tahap pemrosesan text mining, yaitu: tokenisasi, stopwords removal, stemming, features selection, klasifikasi, dan evaluasi [8] Tahap Pemrosesan Data (Data Cleaning) Pada bagian ini akan dilakukan pemrosesan data berupa data cleaning. Data cleaning yang dilakukan adalah menghapus karakter-karakter khusus, menghapus angka, menghapus URL, dan data-data kosong. Hal ini penting dilakukan karena proses pengambilan data otomatis dari IG tidak selalu berhasil dengan sempurna. Setelah dilakukan data cleaning kemudian dilanjutkan proses pada tahap berikutnya. Dari data yang terkumpul setelah dilakukan data cleaning dihasilkan sejumlah dengan data dapat dilihat pada Tabel 1 sebagai berikut [2]: Tabel 1. Data Hasil Cleaning No. Artis Nama Kelas dan Jumlah 1. Ayu Ting-Ting Spam (1262), Bukan Spam (584) 2. Julia Perez Spam (1362), Bukan Spam (739) 3. Nagita Slavina Spam (1435), Bukan Spam (610) 4. Syahrini Spam (922), Bukan Spam (448) 5. Laudya Cinthia Bella Spam (902), Bukan Spam (688) 6. Prili Ratuconsina Spam (437), Bukan Spam (1091) 7. Chelsea Olivia Spam (1625), Bukan Spam (293) 8. Luna Maya Spam (965), Bukan Spam (275) 9. Raisa Spam (666), Bukan Spam (621) 10. Agnes Monica Spam (1143), Bukan Spam (940) JUMLAH SPAM JUMLAH BUKAN SPAM TOTAL KESELURUHAN
4 2.3. Tahap Pre-processing Tahap pre-processing dilakukan sebagai berikut: a. Tokenisasi. Tokenisasi dilakukan untuk menghaslkan token-token data. Jumlah token yang dihasilkan adalah token unik dan 7728 token unik. b. Stopwords Removal. Stopwords removal menggunakan data dari file txt yang diinputkan. Setelah dilakukan stopwords removal, dihasilkan data token sejumlah token. Tujuan dari tahap ini adalah mengurangi jumlah token. c. Stemming. Stemming pada penelitian ini menggunakan library Sastrawi Stemming, library stemming bahasa Indonesia yang berbasis C, Java, Go, Ruby, PHP dan Python yang berbasis algoritma Nazief dan Adriani. Tujuan dari tahap ini juga mengurangi jumlah token. d. Cleansing and Symbol Handling. Tahap ini terdiri dari cleansing yaitu menghapus karakter-karakter seperti: ~, `,!, $, %, ^, &, *, (, ), _, -, +, =, :,,, <, >, koma, titik,?, /, \, dan. Kemudian dilanjutkan dengan membuang semua spasi yang berjumlah lebih dari satu dan menggabungkannya menjadi satu spasi saja. Membuang semua spasi di awal dan akhir kalimat (trim), dan menghapus semua baris yang kosong. Terakhir adalah membuang semua angka, string dengan format URL, dan . Simbol-simbol pada IG perlu dikonversikan ke dalam bentuk teks. Data hasil cleansing menghasilkan Spam berjumlah dan Non Spam berjumlah 6062 data Tahap Text Transformation Pada tahap ini dilakukan proses pengubahan data dari token teks menjadi vector data yang memiliki nilai berupa bobot yang dapat digunakan untuk perhitungan data / text mining. Proses text transformation dilakukan dengan menggunakan pembobotan Term Frequency Inverse Document Frequency (TF-IDF). Dalam TF-IDF semakin banyak suatu token muncul berkali-kali di banyak dokumen maka berarti token tersebut tidak memiliki bobot yang besar sebab bobot token tersebut tidak penting dan memiliki ciri khas yang membedakannya dengan token-token lain. Sebaliknya token tertentu akan memiliki bobot tinggi jika token tersebut muncul banyak namun hanya di satu atau beberapa dokumen saja, yang artinya semakin penting dan memberikan ciri atau pengaruh kuat tentang suatu dokumen Tahap Features Selection Pada tahap ini dilakukan pemilihan fitur-fitur dari keseluruhan token yang telah ditransformasi dan memiliki bobot TF-IDF seperti pada langkah sebelumnya. Berdasarkan [9] dan [10], tahap ini penting dilakukan dengan tujuan mengurangi jumlah fitur dan memilih fitur token-token tertentu yang memiliki bobot tertinggi sehingga dapat mewakili keunikan setiap data dokumen. Proses ini dilakukan dengan menggunakan metode pruning di bawah 0.1 dan di atas Tahap Klasifikasi Tahap klasifikasi dilakukan dengan menggunakan algoritma SVM yang diimplementasikan pada RapidMiner 7.5 dengan pengaturan operator seperti pada Gambar 2. Algoritma NB digunakan sebagai pembanding berdasarkan penelitian sebelumnya. Sedangkan parameter-paramater yang digunakan adalah seperti pada Tabel 2 berikut. Tabel 2. Parameter Klasifikasi Algoritma Parameter Nilai Support Vector Machine Kernel Function C Gamma Epsilon Max iteration RBF Naive Bayes Laplace Correction Estimation mode Minimum Width No of kernels Yes Greedy
5 2.7. Tahap Evaluasi Tahap evaluasi dilakukan dengan menggunakan pengujian k-fold validation pada RapidMiner 7.5 sesuai pengaturan pada Tabel 3 berikut. Tabel 3. Parameter Evaluasi Penelitian Algoritma Parameter Nilai Support Vector Metode validasi k-fold Validation Machine Metrik pengujian Confusion Matrix Jumlah data data Tool RapidMiner 7.5 Kriteria output yang dihasilkan Accuracy dan Classification Sampling type Shuffled sampling 3. Kajian Pustaka 3.1. Tinjauan Pustaka Pada era modern dan berkembangnya media sosial, para pengguna Internet secara usercentric bebas dapat melakukan dua hal yaitu proses read, yaitu membaca konten yang disediakan oleh orang lain di Internet dan yang kedua adalah proses write, yaitu mengisi konten di Internet dengan berbagai cara seperti mengunggah tulisan, dokumen, gambar, ataupun video terutama melalui situs media sosial. Era Internet seperti ini disebut sebagai era Web 2.0, di mana Internet sudah menjadi platform online yang bersifat dua arah, read dan write [11]. Dengan teknologi berbasis Web 2.0 terdapat banyak aplikasi yang akan memungkinkan akses terintegrasi terhadap berbagai layanan, konten, dan segala sesuatu di Internet. Hal ini juga menyebabkan pengguna Web 2.0 tidak hanya bersifat pasif (konsumer), sekaligus aktif (sebagai produser), yang disebut prosumer [12]. Proses write, yaitu menuliskan sesuatu di Internet dapat dilakukan di berbagai hal, salah satunya melalui menulis status dan komentar pada media sosial. Hal ini memiliki resiko buruk yaitu dapat menulis dengan sembarangan, termasuk munculnya tulisan spam. Spam diterjemahkan sebagai suatu tulisan/pesan yang tidak sesuai/tidak berhubungan dengan topik tertentu sehingga menyebabkan ketidaknyamanan atau bahkan ketidaktepatan informasi yang diperoleh pengguna. Spam pada komentar ditemukan dalam bentuk yaitu tautan spam yang ditulis pada web seperti blog dan wiki. Beberapa diantaranya sering ditemukan dalam bentuk komentar, trackback, dan pingback spam pada artikel blog yang di-posting seseorang. Namun baru-baru ini komentar spam juga berupa tulisan seperti jualan barang dagangan maupun promosi sesuatu yang tidak berhubungan dengan status yang dikomentari, seperti yang banyak ditemukan pada blog dan IG. Beberapa cara manual yang dapat digunakan untuk mendeteksi komentar spam adalah: (1) deteksi komentar dobel/duplikasi, (2) menggunakan plugin untuk blog, (3) menonaktifkan komentar tanpa login, (4) menggunakan CAPTCHA, (5) moderasi komentar secara manual, (6) tidak memperbolehkan hyperlink, (6) deteksi kata-kata aneh, kesalahan gramatikal, tidak rasional, tidak relevan dengan yang diberi komentar, dan biasanya bersifat sangat umum. Pada penelitian ini digunakan sistem supervised learning di mana sistem berusaha mendeteksi secara otomatis menggunakan algoritma Naïve Bayes (NB) dan Support Vector Machine (SVM). Berdasarkan penelitian sebelumnya diperoleh bahwa algoritma NB mencapai akurasi tertinggi 77,25 %. Penelitian tersebut telah menghasilkan dataset komentar IG dari 10 artis berfollower terbanyak dengan jumlah data sebanyak data (10719 spam, 6288 bukan spam) [2]. Penelitian ini membandingkan NB dan SVM karena SVM memiliki kelebihan dengan jumlah kelas kecil (biasanya 2 kelas) dan buruk untuk kelas yang sangat banyak [13], serta merupakan klasifier yang sangat baik karena memiliki tingkat akurasi yang tinggi bahkan mencapai di atas 95%, walaupun waktu komputasinya lebih lama daripada Naïve Bayes [14] [15]. SVM dipilih dalam penelitian ini karena beberapa alasan: 1). SVM mampu melakukan generalisasi dengan error yang lebih kecil, 2). SVM mampu bekerja untuk dimensi yang besar, dan 3). SVM memiliki feasibility yang jelas, artinya termasuk bisa diimplementasikan dan memiliki banyak library pendukung. 223
6 3.2. Algoritma Naïve Bayes Algoritma Naive Bayes (NB) adalah algoritma klasifier yang menggunakan teori kemungkinan dalam bidang statistik yang digagas pertama kali oleh Thomas Bayes untuk memprediksi peluang di masa yang akan datang berdasarkan peluang dari masa sebelumnya. Metode ini kemudian digabungkan dengan kondisi natif yaitu kondisi dimana kondisi antar atribut dalam universe saling bebas dan tidak berhubungan satu sama lain. Dalam kaitannya dengan data latih, setiap data latih memiliki atribut-atribut dan satu buah label kelas, maka kemungkinan suatu data baru masuk ke dalam suatu kelas dapat didefinisikan dengan Persamaan (1) berikut [16]: Dalam kasus klasifikasi spam, dapat dijelaskan bahwa probabilitas suatu dokumen x masuk dalam kelas Ck jika diketahui sesuatu adalah sama dengan probabilitas keseluruhan bahwa suatu data masuk dalam kelas Ck, dikali probabilitas x ada pada kelas Ck, kemudian dibagi dengan evidence probabilitas x. Jika dalam bentuk klasifikasi spam adalah sebagaimana pada Persamaan (2) berikut: Dengan keterangan: p(s d) adalah probabilitas dokumen d masuk dalam kategori Spam (S) p(s) adalah probabilitas keseluruhan kategori Spam (S) p(d S) adalah probabilitas kategori Spam (S) pada dokumen d p(d NS) adalah probabilitas kategori Not Spam (NS) pada dokumen d p(ns) adalah probabilitas keseluruhan kategori Not Spam (NS) 3.3. Algoritma Support Vector Machine Algoritma Support Vector Machine (SVM) merupakan salah satu algoritma klasifier yang berbasiskan model supervised learning dan diperkenalkan oleh Vapnik pada tahun Pada sejumlah data pelatihan yang memiliki sejumlah x atribut (vektornya memiliki ukuran x dimensi), metode SVM akan mencari dan menemukan sebuah hyperplane berukuran x-1 dimensi guna memisahkan data pelatihan berbasiskan kategori atau kelasnya. Proses menemukan hyperplane dilakukan dengan memaksimalkan jarak antar kelas (margin). Dengan cara ini SVM dapat menjamin kemampuan generalisasi yang tinggi untuk data-data yang akan datang [17]. Apabila diketahui data training merupakan data yang telah diberi label dan memiliki sejumlah x atribut (atau biasa dinamakan sebagai tuple), (x i, y i ) dengan i = 1, 2,, n, di mana n adalah jumlah data training, sedangkan x i adalah kumpulan atribut pada data training ke-i dan y i adalah kelas dari data training ke-i tersebut, maka SVM akan menghitung masalah optimisasi seperti dilihat pada Persamaan (3) [16]. (2) (1) (3) dengan ketentuan seperti pada Persamaan (4) berikut: Metode SVM mempunyai kelemahan pada proses perhitungan yang relatif lama dan sulit diaplikasikan pada jumlah sampel dan dimensi yang besar dibandingkan dengan metodemetode klasifikasi lainnya, namun mempunyai kelebihan dalam mengklasifikasikan data untuk kategori/kelas dengan jumlah sedikit (direkomendasikan untuk 2 kelas) sehingga sangat cocok untuk klasifikasi spam (spam dan not spam) [17]. (4) 224
7 3.4. Confusion Matrix Confusion Matrix merupakan sebuah tabel atau matriks yang menggambarkan kebingungan dari hasil klasifikasi yang dilakukan oleh system dibandingkan dengan yang sebenarnya. Tabel confusion matrix dapat dilihat pada Tabel 4 berikut [18]: Tabel 4. Confusion Matrix Class Hasil Prediksi Negatif Positif Class sebenarnya Negatif True Negatif (TN) False Negatif (FN) Positif False Positif (FP) True Positif (TP) Dari confusion matrix pada Tabel 5 dapat dilakukan perhitungan lebih lanjut untuk mendapatkan tingkat akurasi (accuracy), recall, precision dan f-measure dengan Persamaan (5-10). Accuracy = (TN + TP) / (TN + FP + FN + TP) (5) Recall / True Positive Rate = TP / (FP + TP) (6) False Positive Rate = FN / (TN + FN) (7) Specificity / True Negative = FP / (FP + TP) (8) Precision = TP / (FN + TP) (9) F-Measure = 2 * TP / (2 * TP + FP + FN (10) 4. Hasil dan Pembahasan Pada bagian ini dibahas dua hal, yaitu konfigurasi pembelajaran sistem berbasis supervised learning dan evaluasi pengujian sistem. Hasil konfigurasi RapidMiner dapat dilihat pada Gambar 2 berikut. Gambar 2. Konfigurasi Sistem Supervised Learning Pada konfigurasi Gambar 2 di atas, dapat dijelaskan bahwa tahapan pertama adalah pengambilan data dari basis data, kemudian dilakukan normalisasi, pre-processing dokumen, kemudian langkah terakhir adalah tahap klasifikasi dan validadasi. Langkah evaluasi dilakukan dengan pengujian sistem yang terdiri dari skenario berikut: 4.1. Skenario I Tanpa Stemming Skenario I tanpa stemming adalah pengujian di mana data yang digunakan untuk training berjumlah untuk data spam dan 6062 untuk data not spam tanpa dilakukan stemming terlebih dahulu. Dari data tersebut dilakukan pengujian menggunakan teknik k-fold validation dengan k=10, artinya data uji untuk masing-masing pengujian berjumlah 1646 (10%) dan hasilnya akan dirata-rata serta ditampilkan dalam kurva ROC (Receiver Operating Characteristic). Gambar data profil skenario I dapat dilihat di Gambar 3 (a) berikut. 225
8 Hasil Naïve Bayes (NB) Gambar 3. (a) Data Profil I dan (b) Data Profil II Hasil confusion matrix untuk NB pada Skenario I tanpa stemming dapat dilihat pada Tabel 5. Dari hasil tersebut dapat dibuat kurva ROC untuk kemampuan algoritma NB pada data tidak seimbang pada Gambar 4 (a). Dari kurva tersebut dapat dilihat kinerja algoritma NB dalam melakukan klasifikasi. Pada sumbu X dapat dilihat hasil False Positive Rate (fallout) dan sumbu Y adalah True Positive Rate (sensitivity). Dari Gambar 4 (a) dapat diketahui bahwa grafik NB sudah cukup baik karena grafik NB memiliki luasan yang besar dan tidak mendekati titik 0,0, justru makin mendekati titik 1,0. Tabel 5. Confusion Matrix Skenario I NB Tanpa Stemming Predicted Spam 6388 (TP) 217 (FP) 96,71% (precision) Predicted Not Spam 4011 (FN) 5845 (TN) 59,30% (fallout) Class Recall 61,43% (recall) 96,42% (specificity) Dari Tabel 5 diperoleh accuracy 74,31 %, classification error 25,69 %, dan f-measure 75, 13 % Hasil Support Vector Machine (SVM) Hasil confusion matrix untuk SVM pada Skenario I tanpa stemming dapat dilihat pada Tabel 6. Dari hasil tersebut SVM lebih baik 4.18% daripada Naïve Bayes. Pada kurva ROC untuk algoritma SVM pada data tidak seimbang dapat dilihat pada Gambar 4 (b). Dari kurva tersebut dapat dilihat kinerja algoritma SVM dalam melakukan klasifikasi. Dari gambar tersebut dapat diketahui bahwa garis merah pada grafik SVM cukup mirip dengan grafik NB yang ada pada Gambar 4 (a). Tabel 6. Confusion Matrix Skenario I SVM Tanpa Stemming Predicted Spam 8933 (TP) 2074 (FP) 81.16% (precision) Predicted Not Spam 1466 (FN) 3988 (TN) 73.12% (fallout) Class Recall 85.90% (recall) 65.79% (specificity) Dari Tabel 6 diperoleh accuracy %, classification error %, dan f-measure %. Gambar 4. (a) ROC Curve NB Skenario I, (b) ROC Curve SVM Skenario I (Tanpa Stemming) 226
9 4.2. Skenario II Tanpa Stemming Skenario II tanpa stemming adalah pengujian di mana data spam dan not spam dibuat menjadi seimbang, sehingga yang digunakan untuk training berjumlah 6062 untuk data spam dan 6062 untuk data not spam tanpa dilakukan stemming terlebih dahulu. Dari data tersebut dilakukan pengujian menggunakan teknik k-fold validation dengan k=10, artinya data uji untuk masingmasing pengujian berjumlah 606 (10%) dan hasilnya akan dirata-rata serta ditampilkan dalam kurva ROC. Gambar data profil skenario II dapat dilihat pada Gambar 3 (b) Hasil Naïve Bayes (NB) Hasil confusion matrix untuk NB pada Skenario II tanpa stemming dapat dilihat pada Tabel 7. Dari hasil tersebut terlihat ada peningkatan 2,75 % dari Skenario I ke Skenario II pada NB. Kurva ROC untuk melihat kemampuan algoritma NB pada data seimbang dapat dilihat pada Gambar 5 (a). Terlihat bahwa ROC NB pada Skenario I dan II sangat mirip seperti pada Gambar 4 (a) dan 5 (a). Tabel 7. Confusion Matrix NB Skenario II Tanpa Stemming Predicted Spam 3468 (TP) 164 (FP) 95.48% (precision) Predicted Not Spam 2594 (FN) 5898 (TN) 69.45% (fallout) Class Recall 57.21% (recall) 97.29% (specificity) Dari Tabel 7 diperoleh accuracy 77,25 %, classification error 22,75 %, dan f-measure 71,5 % Hasil Support Vector Machine (SVM) Hasil Confusion Matrix untuk SVM pada Skenario II tanpa stemming dapat dilihat pada Tabel 8. Berbeda dengan hasil SVM menggunakan data tidak seimbang (skenario I), dari hasil perbandingan akurasi antara SVM skenario I dan II terjadi penurunan kecil, yaitu sebesar 2.71 %. Kurva ROC untuk SVM data seimbang (skenario II) juga mengalami penurunan luasan seperti pada Gambar 5 (b). Dari Gambar 5 (b) dapat diketahui bahwa grafik SVM untuk data seimbang mirip sekali dengan SVM data tidak seimbang (Gambar 4 (b), yang berarti tidak lebih baik kinerjanya daripada metode NB, karena grafik SVM memiliki luasan yang lebih kecil daripada NB. Tabel 8. Confusion Matrix SVM Skenario II Tanpa Stemming Predicted Spam 3224 (TP) 98 (FP) 97.05% (precision) Predicted Not Spam 2838 (FN) 5964 (TN) 67.76% (fallout) Class Recall 53.18% (recall) 98.38% (specificity) Dari Tabel 8 diperoleh accuracy %, classification error %, dan f-measure %. Gambar 5. (a) ROC Curve Naïve Bayes Skenario II, (b) ROC Curve SVM Skenario II (Tanpa Stemming) 4.3. Pembahasan Perbandingan Skenario I dan II Tanpa Stemming Dilihat dari kedua pengujian menggunakan skenario I dan II (tanpa stemming) diperoleh peningkatan akurasi sebesar 2,94 % untuk algoritma NB namun justru terjadi penurunan akurasi kecil sebesar 2.71 % untuk algoritma SVM, namun pada prinsipnya penurunan tersebut tidak signifikan. Jika dilihat dari kurva ROC, kinerja NB antara data seimbang dan tidak seimbang hampir sama dan untuk ROC SVM lebih baik daripada NB walaupun peningkatan 227
10 sangat kecil. Kurva ROC juga menunjukkan bahwa kinerja algoritma SVM lebih baik daripada NB dan keduanya memiliki akurasi dalam kisaran 74% 79%. Perbandingan akhir kedua metode untuk skenario I dan II diperoleh bahwa algoritma SVM dan algoritma NB sebenarnya memiliki kemampuan yang hampir sama (terjadi perbedaan namun tidak signifikan) untuk kasus Instagram bahasa Indonesia tanpa stemming Skenario I dengan Stemming Skenario I dengan stemming adalah pengujian di mana data yang digunakan untuk training berjumlah untuk data spam dan 6062 untuk data not spam denga terlebih dahulu dilakukan pemrosesan stemming. Dari data tersebut dilakukan pengujian menggunakan teknik k-fold validation dengan k=10, artinya data uji untuk masing-masing pengujian berjumlah 1646 (10%) dan hasilnya dirata-rata serta ditampilkan dalam kurva ROC Hasil Naïve Bayes (NB) Hasil confusion matrix untuk NB pada Skenario I dengan stemming dapat dilihat pada Tabel 9. Dilihat dari data pada tabel tersebut, tingkat akurasi menurun dibandingkan dengan data yang tidak dilakukan stemming. Hal ini terjadi karena data-data teks menggunakan Unicode namun library stemming yang digunakan tidak mendukung Unicode dengan baik. Grafik ROC NB untuk data seimbang untuk stemming dapat dilihat pada Gambar 6 (a). Pada Gambar 6 (a) kinerja algoritma NB masih cukup baik dan hampir mirip dengan kinerja NB pada Gambar 4 (a) dan 5(a). Tabel 9. Confusion Matrix Skenario I NB Dengan Stemming Predicted Spam (TP) 4722 (FP) 68.30% (precision) Predicted Not Spam 223 (FN) 1340 (TN) 85.73% (fallout) Class Recall 97.86% (recall) 22.10% (specificity) Dari Tabel 9 diperoleh accuracy 69,96 %, classification error %, dan f-measure 80.4 %. Gambar 6. (a) ROC Curve NB Skenario I dan (b) ROC Curve Skenario I SVM (Stemming) Hasil Support Vector Machine (SVM) Hasil confusion matrix untuk SVM pada Skenario I dengan stemming dapat dilihat pada Tabel 10. Dilihat dari data tersebut, tingkat akurasi dengan stemming sama saja dibandingkan dengan data yang tidak dilakukan stemming. Dalam hal ini stemming tidak membawa perubahan apapun. Gambar grafik ROC dapat dilihat pada Gambar 6 (b). Dari grafik ROC SVM sangat mirip seperti pada SVM tidak seimbang maupun seimbang tanpa stemming, alias tidak terjadi perubahan. Dari hasil pengujian yang sudah dilakukan untuk skenario I (data tidak seimbang) baik tanpa stemming ataupun dengan stemming ternyata algoritma SVM lebih baik daripada NB dengan selisih keakuratan antara 4 9 % lebih tinggi. Tabel 10. Confusion Matrix Skenario I SVM Dengan Stemming Predicted Spam 6958 (TP) 131 (FP) % (precision) Predicted Not Spam 3441 (FN) 5931 (TN) % (fallout) Class Recall % (recall) % (specificity) 228
11 Dari Tabel 10 diperoleh accuracy 78.3 %, classification error 21.7 %, dan f-measure % Skenario II dengan Stemming Skenario II dengan stemming adalah pengujian di mana data spam dan not spam dibuat menjadi seimbang, sehingga yang digunakan untuk training berjumlah 6062 untuk data spam dan 6062 untuk data not spam dengan terlebih dahulu dilakukan pemrosesan stemming. Dari data tersebut dilakukan pengujian menggunakan teknik k-fold validation dengan k=10, artinya data uji untuk masing-masing pengujian berjumlah 606 (10%) dan hasilnya dirata-rata serta ditampilkan dalam kurva ROC Hasil Naïve Bayes (NB) Hasil confusion matrix untuk NB pada Skenario II dengan stemming dapat dilihat pada Tabel 11. Pada Gambar 7 (a) dapat dilihat grafik ROC dari NB skenario II dengan stemming. Dari gambar tersebut dapat diketahui bahwa kinerja algoritma NB masih cukup baik, walaupun tetap lebih baik pada Skenario I dengan stemming. Tabel 11. Confusion Matrix Skenario II NB Dengan Stemming Predicted Spam 5969 (TP) 5072 (FP) % (precision) Predicted Not Spam 93 (FN) 990 (TN) % (fallout) Class Recall % (recall) % (specificity) Dari Tabel 11 diperoleh accuracy %, classification error %, dan f-measure %. Gambar 7. (a) ROC Curve Skenario II NB, (b) ROC Curve Skenario II SVM (Dengan Stemming) Hasil Support Vector Machine (SVM) Hasil confusion matrix untuk SVM pada Skenario II dengan stemming dapat dilihat pada Tabel 12. Gambar 7 (b) merupakan grafik ROC algoritma SVM untuk skenario II dengan stemming yang jelas lebih baik daripada NB. Tabel 12. Confusion Matrix Skenario II SVM Dengan Stemming Predicted Spam 3253 (TP) 89 (FP) % (precision) Predicted Not Spam 2809 (FN) 5973 (TN) % (fallout) Class Recall % (recall) % (specificity) Dari Tabel 13 diperoleh accuracy %, classification error %, dan f-measure 69.2 % Pembahasan Perbandingan Algoritma NB dan SVM dengan Stemming Dari hasil akurasi algoritma SVM lebih tinggi daripada algoritma Nb untuk data dengan stemming, walaupun akurasi dan F-Measure-nya lebih kecil / turun daripada yang tanpa stemming. Hal ini terjadi karena pemrosesan karakter Unicode yang tidak terproses dengan baik. Dari Gambar 11 dan Gambar 12 juga dapat diketahui bahwa grafik kinerja SVM baik karena grafik SVM memiliki luasan yang lebih besar daripada NB pada skenario II menggunakan stemming. SVM unggul dari NB baik untuk tanpa stemming maupun dengan stemming. 229
12 4.7. Pembahasan Perbandingan Algoritma NB dan SVM Secara Keseluruhan Hasil akurasi dan F-measure dari Algoritma NB dan SVM dapat dilihat pada Tabel 13 dan Gambar 13 berikut. Dari Tabel dan gambar tersebut dapat dilihat bahwa akurasi dan f-measure terbaik diperoleh SVM S1 NS dengan nilai % dan Tabel 13. Perbandingan Akurasi Dan F-Measure Naïve Bayes Dan SVM Akurasi F-Measure NB S1 NS % NB S1 S % 80.4 NB S2 NS % 71.5 NB S2 S 78.3 % SVM S1 NS % SVM S1 S 78.3 % SVM S2 NS % SVM S2 S 76.1 % 69.2 Perbandingan Hasil Akurasi dan F-1 Naive Bayes dan Support Vector Machine NB S1 NS NB S1 S NB S2 NS NB S2 S SVM S1 NS SVM S1 S SVM S2 NS SVM S2 S Akurasi F-Measure Gambar 8. Grafik Perbandingan Akurasi & F-Measure Naïve Bayes - Support Vector Machine 5. Kesimpulan Kesimpulan yang diperoleh dari penelitian ini adalah SVM memiliki kinerja yang lebih baik daripada NB namun tidak terlalu signifikan peningkatannya. Tingkat akurasi antara NB dan SVM berkisar antara % di mana kemampuan deteksi keduanya termasuk dalam kategori baik. Akurasi untuk klasifikasi menggunakan NB adalah 74,31 % untuk skenario I (data tidak seimbang) dan sebesar 77,25% untuk skenario II (data seimbang). Terjadi peningkatan sebesar 2,94 % untuk data seimbang. Akurasi untuk klasifikasi menggunakan SVM adalah sebesar 78,49 % untuk skenario I (data tidak seimbang) dan sebesar 75,78% untuk skenario II (data seimbang). Terjadi penurunan sebesar 2,71 % untuk data seimbang. Proses stemming yang digunakan pada data skenario I dan II tidak menghasilkan akurasi yang lebih baik pada algoritma NB maupun SVM karena adanya karakter Unicode dan simbol yang belum dapat ditangani sepenuhnya. Penggunaan stemming juga tidak meningkatkan akurasi baik pada NB (tingkat akurasi % untuk skenario I dan 76.1 % untuk skenario II) maupun SVM (tingkat akurasi % untuk skenario I dan 76.1 % untuk skenario II). Tahapan pre-processing data Instagram bahasa Indonesia yang perlu dilakukan untuk pemrosesan data deteksi komentar spam dari Instagram adalah: setting encoding teks ke encoding Unicode (UTF-8), tokenisasi, case folding, stop words removal, stemming, dan konversi simbol-simbol, serta emoticon. 230
13 Daftar Pustaka [1] M. Deoranje, 10+ Akun Instagram Dengan Followers Terbanyak di Indonesia, Musdeoranje.net, August [Online]. Available: [Acessed on 9 August 2017]. [2] A. Rachmat and Y. Lukito, Deteksi Komentar Spam Bahasa Indonesia Pada Instagram Menggunakan Naive Bayes, Ultimatics - Jurnal Informatika, vol. 9, no. 1, pp , 1 June [3] Y. Ko, How to use negative class information for Naive Bayes classification, Information Processing & Management, vol. 53, no. 6, pp , [4] F. G. Wei Zhang, An Improvement to Naive Bayes for Text Classification, Procedia Engineering, vol. 15, no. 15, pp , [5] A. Rachmat C e Y. Lukito, Klasifikasi Sentimen Komentar Politik dari Facebook, JUISI, vol. 02, no. 02, [6] N. O. F. Elssied, O. Ibrahim and A. H. Osman, Enhancement of spam detection mechanism based on hybrid kk, Soft Computing, vol. 19, no. 11, p , [7] L. H. Lee, R. Rajkumar and D. Isa, Automatic folder allocation system using Bayesiansupport vector, Applied Intelligence, vol. 36, no. 2, pp , March [8] S. M. Weiss, N. Indurkhya and T. Zhang, Fundamentals of Predictive Text Mining, 1st ed., London: Springer, 2010, pp. XIV, 226. [9] G. Forman, An extensive empirical study of feature selection metrics for text classification, Journal of machine learning research, vol. 3, no. March, pp , [10] W. Zhang, T. Yoshida and X. Tang, A comparative study of TF-IDF, LSI, and multi-words for text classification, Expert Systems with Application, vol. 38, no. 2011, pp , [11] R. Hail, Towards a Fusion of Formal and Informal Learning Environments: The Impact of the Read/Write Web, Electronic Journal of e-learning, vol. 7, no. 1, pp , [12] J. A. Lara, D. Lizcano, M. A. Martínez and J. Pazos, Developing front-end Web 2.0 technologies to access services, content and things in the future Internet, Future Generation Computer Systems, vol. 29, no. 5, pp , [13] Y. Lukito and A. R. Chrismanto, Perbandingan Metode-Metode Klasifikasi untuk Indoor Positioning System, Jutisi (Jurnal Teknik Informatika dan Sistem Informasi), vol. 1, no. 2, pp , [14] D. Ariadi and K. Fithriasari, Klasifikasi Berita Indonesia Menggunakan Metode Naive Bayesian Classification dan Support Vector Machine dengan Confix Stripping Stemmer, JURNAL SAINS DAN SENI ITS, vol. 4, no. 2, pp. D248-D253, [15] S. N. D. Pratiwi and B. S. S. Ulama, Klasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor, JURNAL SAINS DAN SENI ITS, vol. 5, no. 2, pp. D D-349, [16] H. Jiawei, K. Micheline and P. Jian, Classification: basic concepts. In Data mining Concepts and techniques (3rd ed.), Amsterdam: Elsevier, [17] S. M. Dr. Suyatno, Data Mining untuk Klasifikasi dan Klasterisasi Data, Bandung: Informatika, [18] X. Deng, Q. Liu, Y. Deng e S. Mahadevan, An improved method to construct basic probability assignment based on the confusion matrix for classification problem, Information Sciences, vol , no. 1 May 2016, pp ,
BAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Deteksi Komentar Spam Bahasa Indonesia Pada Instagram Menggunakan Naive Bayes
Deteksi Komentar Spam Bahasa Indonesia Pada Instagram Menggunakan Naive Bayes Antonius Rachmat C 1, Yuan Lukito 2 Prodi Teknik Informatika, Fakultas Teknologi Informasi, Universitas Kristen Duta Wacana
PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI
PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon
BAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
BAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION
KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi [email protected] Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi
UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Bandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA Penelitian terdahulu sangat penting bagi penulis untuk mengetahui referensi dan hubungan antara penelitian terdahulu dengan penelitian yang dilakukan saat ini, sehingga hal duplikasi
ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA
ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi
BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
BAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)
Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:
ANALISA MODEL SUPPORT VECTOR MACHINE TEXTMINING PADA KOMENTAR POSITIF DAN NEGATIF UNTUK REVIEW PERBANDINGAN WHATSAPP VS BBM Agus darmawan 1, Syamsiah 2 Program Studi Teknik Informatika, Universitas Indraprasta
SENTIPOL: Dataset Sentimen Komentar Pada Kampanye PEMILU Presiden Indonesia 2014 Dari Facebook Page
SENTIPOL: Dataset Sentimen Komentar Pada Kampanye PEMILU Presiden Indonesia 2014 Dari Facebook Page Antonius Rachmat dan Yuan Lukito KNASTIK 2016 Universitas Kristen Duta Wacana 19 November 2016 Latar
BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
BAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen
Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Menurut Liu opini merupakan pernyataan subyektif yang mencerminkan sentimen orang atau persepsi tentang entitas dan peristiwa [1]. Opini atau pendapat orang lain terhadap
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA
PERBANDINGAN ALGORITMA STEMMING PADATEKS BAHASA INDONESIA Sigit Prasetyo Karisma Utomo 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 Magister Teknik Informatika STMIK AmikomYogyakarta e-mail: 1 [email protected],
BAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
BAB III METODOLOGI PENELITIAN. Dataset
BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar
BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE
DRAFT JURNAL ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE SENTIMENT ANALYSIS FOR TWITTER ABOUT ONLINE INDONESIAN TRANSPORTATION WITH
Gambar 1.1 Proses Text Mining [7]
1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Saat ini, microblogging menjadi sangat popular untuk alat komunikasi antara pengguna internet. Setiap hari jutaan pesan muncul di website penyedia microblogging diantaranya
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama
Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom
Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor
Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik
Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala
Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs
Klasifikasi Sentimen Komentar Politik dari Facebook Page Menggunakan Naive Bayes
JUISI, Vol. 02, No. 02, Agustus 2016 1 Klasifikasi Sentimen Komentar Politik dari Facebook Page Menggunakan Naive Bayes Antonius Rachmat C 1, Yuan Lukito 2 Abstrak Seiring maraknya situs media sosial yang
BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.
BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan
BAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera
BAB 3 ANALISIS MASALAH DAN PERANCANGAN
BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 12, Desember 2017, hlm. 1725-1732 http://j-ptiik.ub.ac.id Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia Layanan
BAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
BAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode
PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK
J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR
KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR Dewi Pramudi Ismi 1), Ardiansyah 2) 1 Program Studi Teknik Informatika, Fakultas Teknologi Industri,
BAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
BAB I PENDAHULUAN.
BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail
BAB II LANDASAN TEORI
2.1 Studi Literatur BAB II LANDASAN TEORI Penelitian yang berkaitan dengan klasifikasi kalimat tanya berdasarkan Taksonomi Bloom telah dilakukan oleh Selvia Ferdiana Kusuma dengan menggunakan algoritma
PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT
PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT TUGAS AKHIR Diajukan Untuk Memenuhi Sebagian Prasyarat Mencapai Derajat Teknik Informatika Disusun Oleh
IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR
IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS
1 BAB I PENDAHULUAN. 1.1 Latar Belakang
1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh
Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin
LAPORAN TUGAS AKHIR. Disusun oleh: Franky
LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis
UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat
BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: [email protected]
Implementation of Cosine Similarity and Time Interval Entropy Method to Identify Bot Spammer Account on Twitter
Implementation of Cosine Similarity and Time Interval Entropy Method to Identify Bot Spammer Account on Twitter Sisca Dewi Priyani Teknik Informatika, FST Universitas Al Azhar Indonesia Jl. Sisingamangaraja,
BAB III ANALISA DAN PERANCANGAN SISTEM
BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Pemilihan dosen pembimbing Tugas Akhir pada jurusan Teknik Informatika Universitas Muhammadiyah Malang dilakukan mahasiswa secara mandiri, hal
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Informasi telah menjadi kebutuhan utama dalam kehidupan manusia. Informasi bisa dikatakan sebagai pengetahuan yang didapatkan dari pembelajaran, pengalaman, atau instruksi.
Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS
Vol.2 No.2, November 2017, pp. 7~13 ISSN: 2527-449X E-ISSN: 2549-7421 7 Komparasi Algoritma Support Machine, Naïve Dan C4.5 Untuk Klasifikasi SMS Retno Sari STMIK Nusa Mandiri e-mail: [email protected]
Versi Online tersedia di : JURNAL TECH-E (Online)
JURNAL TECH-E - VOL. 1 NO. 1 (2017) Versi Online tersedia di : http://bsti.ubd.ac.id/e-jurnal JURNAL TECH-E 2581-116 (Online) Artikel Perancangan Aplikasi Prediksi Kelulusan Mahasiswa Tepat Waktu Pada
BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing
BAB III LANDASAN TEORI Permasalahan yang diselesaikan dalam tesis ini adalah deteksi emosi. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing (Calvo & D'Mello, 2010). Bidang penelitian
KLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
BAB 3 METODE PENELITIAN
BAB 3 METODE PENELITIAN Pada proses penelitian ini dilakukan beberapa tahapan mulai dari tahap awal yaitu tahap inisiasi, pengembangan model, dan tahap terakhir pengembangan prototipe. Dalam tahapan inisiasi
BAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Text mining Menurut Feldman dan Sanger (Feldman dan Sanger, 2007), text mining dapat didefinisikan secara luas sebagai proses pengetahuan intensif yang memungkinkan pengguna berinteraksi
Analisis Kinerja Struktur Data Kd-Tree Pada Metode K-Nearest Neighbors
Riau Journal of Computer Science Vol.2 No.2 Tahun 2016 : 1-6 1 Analisis Kinerja Struktur Data Kd-Tree Pada Metode K-Nearest Neighbors Yuan Lukito Program Studi Teknik Informatika, Fakultas Teknologi Informasi
Uji Perbandingan Akurasi Analisis Sentimen Pariwisata menggunakan Algoritma Support Vektor Machine dan Naive Bayes
Uji Perbandingan Akurasi Analisis Sentimen Pariwisata menggunakan Algoritma Support Vektor Machine dan Naive Bayes Tesis Diajukan kepada Fakultas Teknologi Informasi Untuk Memperoleh Gelar Master of Computer
BAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN Bab ini berisikan tentang alasan peneliti mengambil permasalahan ini. Pada bab ini poin-poin yang akan dipaparkan antara lain Latar Belakang, Perumusan Masalah, Batasan Masalah, Tujuan
BAB III ANALISIS DAN PENYELESAIAN MASALAH
BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE
ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE SENTIMENT ANALYSIS ON THE ENGLISH BOOK REVIEWS USING INFORMATION GAIN AND SUPPORT VECTOR MACHINE
HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.
HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;
HASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI Pada bab ini akan dibahas mengenai beberapa landasan teori yang digunakan untuk perancangan dan pembuatan aplikasi rekomendasi informasi yang bisa dijadikan sebagai acuan. 3.1 Media
ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI
ANALISIS INFORMATION GAIN ATTRIBUTE EVALUATION UNTUK KLASIFIKASI SERANGAN INTRUSI Aulia Essra (1), Rahmadani (2), Safriadi (3) Magister Teknik Informatika, Universitas Sumatera Utara Jl. Universitas No.24A
Jurnal Politeknik Caltex Riau
1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani
BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait Penelitian terkait dengan topik analisis sentimen cukup banyak, berikut beberapa penelitian yang tekait dengan analisa sentimen yang menggunakan seleksi
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Studi Sebelum melakukan penelitian penulis terlebih dahulu melakukan tinjauan pustaka dari penelitian lain dan penelitian tentang prediksi penjurusan
KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING
ISSN 1858-4667 JURNAL LINK VOL. 25/No. 2/September 2016 KLASIFIKASI DAN ANALISIS SENTIMEN DATA SMS CENTER BUPATI PAMEKASAN MENGGUNAKAN NAÏVE BAYES DENGAN MAD SMOOTHING Badar Said Program Studi Teknik Informatika,
ANALISIS SENTIMEN PADA REVIEW RESTORAN DENGAN TEKS BAHASA INDONESIA MENGUNAKAN ALGORITMA NAIVE BAYES
ANALISIS SENTIMEN PADA REVIEW RESTORAN DENGAN TEKS BAHASA INDONESIA MENGUNAKAN ALGORITMA NAIVE BAYES Dinda Ayu Muthia Program Studi Manajemen Informatika Akademi Manajemen Informatika dan Komputer Bina
Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)
Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Weblog, atau yang sering disebut sebagai Blog, merupakan bagian tak terpisahkan dalam perkembangan dunia teknologi informasi berbasis Web. Berbagai jenis informasi
BAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai
BAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Media Sosial saat ini berkembang sangat pesat, salah satunya adalah Instagram. Aplikasi ini pertama kali muncul tahun 2010 dan langsung memiliki 150 juta pengguna pada
BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
PENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Klasifikasi Sentimen Komentar Politik dari Facebook Page Menggunakan Naive Bayes
26 JUISI, Vol. 02, No. 02,September 2016 Klasifikasi Sentimen Komentar Politik dari Facebook Page Menggunakan Naive Bayes Antonius Rachmat C 1, Yuan Lukito 2 Abstrak Seiring maraknya situs media sosial
KLASIFIKASI PADA TEXT MINING
Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision
DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW
DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW Nia Meliana Umi Proboyekti, Jong Jek Siang Abstrak Pembuatan tugas akhir mahasiswa diharapkan sesuai
BAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan
