Penyaringan Spam Short Message Service Menggunakan Support Vector Machine

Ukuran: px
Mulai penontonan dengan halaman:

Download "Penyaringan Spam Short Message Service Menggunakan Support Vector Machine"

Transkripsi

1 111 Penyaringan Spam Short Message Service Menggunakan Support Vector Machine Tri Herdiawan Apandi *), Castaka Agus Sugianto **) Teknik Informatika, Politeknik TEDC Bandung * h.apandi@gmail.com, ** castaka@poltektedc.ac.id Abstrak Pengguna pesawat selular tidak bisa lepas dari SMS. Tetapi dengan semakin banyak orang yang menggunakan SMS ini banyak yang menyalah gunakan. Spam SMS adalah penyalahgunaan yang bisa merugikan pengguna handphone dan provider. Untuk mencegah spam SMS ini masuk ke dalam handphone banyak cara yang telah dilalukan. Penyaringan spam SMS adalah salah satunya, dengan menggunakan Support Vector Machine(SVM). Pesan SMS yang dikumpulkan di lakukan preprosessing, dipecah isi SMS, dilakukan pemilihan fitur, pembuat fitur vector, optimasi parameter, melakukan pelatihan untuk menghasilkan model, dan melakukan prediksi. Optimasi parameter adalah cara untuk mengingkatkan akurasi, dengan menggunakan parameter C= 32 dan γ=0, untuk data pelatihan dengan akurasi 92,375% dan 10 fold cross validation pada data uji mengingkatkan akurasi sebesar 29% dari yang asalnya 62% pada pemecahan kalimat menjadi kata atau pada penggunaan Term Frequency. Sedang pada karakter N-grams meningkatkan akurasi sebesar 43% dari yang asalnya 50% pada data uji dan pada data pelatihan dengan akurasi % dengan nilai C= 32 dan γ=0, untuk data latih. Sedangkan untuk hasil akurasi terbaik untuk data latih adalah % dengan pembobotan term frequency dan untuk data uji akurasi sebesar 95% untuk semua pembobot. Kata kunci: Spam SMS, SVM, Pembobotan, dan Optimasi Parameter 1. PENDAHULUAN Short Message Service (SMS) adalah komunikasi teks layanan komponen telepon, web atau sistem komunikasi mobile, menggunakan protokol standar komunikasi yang memungkinkan pertukaran pesan teks singkat antara fixed line atau perangkat ponsel. Menurut Asosiasi Telekomunikasi Seluler Indonesia (ATSI) jumlah SMS yang terkirim pada tahun 2011 juga mencapai 260 miliar SMS dan jumlah transaksi data mencapai 27 ribu terrabyte[1]. Spam SMS adalah penyalahgunaan isi dari SMS yang merugikan peneriman. Menurut Cloudmark stats, jumlah spam ponsel bervariasi misalnya di Amerika Utara, kurang dari 1% dari pesan SMS yang spam di 2011, bagian Asia hingga 30% mengandung spam SMS[4]. Karena hambatan masuk yang rendah, maka banyak spammers yang muncul dan jumlah spam SMS sangat tinggi. Untuk itu penyaringan SMS sangat dibutuhkan untuk mencegah kerugian yang dihadapi oleh pengguna handphone itu sendiri, provider, dan masyarakat umum juga merasa tidak nyaman. Pada penelitian terdahulu tentang penyaringan spam SMS banyak medote yang telah dilakukan seperti Support Vector Machine dan Token[8], NaiveBayes[3], dan sampling algorithm[9]. Kekurangan penggabungan Support Vector Machine dan token adalah pada saat isi dari SMS menggunakan imbuhan [4]. Naive Bayes memberikan hasil bahwa waktu pemrosesannya lebih cepat dan tinggkat akurasi yang wajar[3]. Waktu belajar NaiveBayes lebih kecil dibandingkan Decision Trees[12]. Neural Network memberikan error generalisasi yang lebih besar daripada SVM[11]. Semua peneliti sebelumnya menggunakan dataset dalam bahasa asing. Mengetahui karakteristik dataset menjadi penting karena menyangkut penentuan fitur dan preprocessing. Training pada SVM bertujuan untuk mencari posisi optimal dari hyperplane di dual space sedangkan hal ini yang dipakai margin yaitu jarak antara fungsi pemisah (separating hyperplane) ke masing-masing kelas. Sehingga pada saat training SVM mencari

2 112 training set yang paling sempurna. Pada metoda yang lain proses training dilakukan secara berulang sampai didapatkan kedua kelas secara optimal atau juga local optimal. Berbeda dengan SVM training dilakukan sekali dan akan mendapatkan nilai yang optimal, ini memcegah terjadinya overfitting karena overtrained. Berdasarkan hasil peneliti sebelumnya, bisa disimpulkan bahwa SVM memiliki kinerja dasar terbaik [8]. Tujuan dari penelitian adalah mengetahui pengaruh hasil akurasi pencacah karakter N- grams dan pengumpulan dataset Berbahasa Indonesia 2. TINJAUAN PUSTAKA 2.1. SVM Dalam teknik ini, kita berusaha untuk menemukan fungsi pemisah(klasifier) yang optimal yang bisa memisahkan dua set data dari dua kelas yang berbeda[12]. SVM dibagi menjadi 2 yaitu lineary separeable dan nonlineary separeable. Pada penelitian ini menggunakan nonlineary separeable. Nonlinearly separable. Dimana kasus tidak dapat diselesaikan dengan menggunakan solusi pemisahan hard-margin, maka formula SVM harus dimodifikasi agar lebih fleksibel (untuk kasus tertentu) dengan menambahakan variabel slack [11, 13]. Selain menggunakan variabel slack, data yang tidak dapat dipisahkan secara linier dapat diklasifikasikan dengan mentransformasikan data ke dalam dimensi ruang fitur (feature space) sehingga dapat dipisahkan secara linier pada feature space [11,13]. Data dipetakan dengan menggunakan fungsi pemetaan (tranformasi) ke dalam feature space sehingga terdapat bidang pemisah yang dapat memisahkan data berdasarkan kelasnya [13]. SVM menggunakan kernel trick untuk mengatasi permasalahan tersebut. Terdapat dot product. Jika fungsi kernel adalah maka, maka fungsi transformasi tidak perlu diketahui secara persis [8] 2.2. Estimasi Parameter Terbaik Akurasi model yang dihasikan dari data pelatihan menggunakan SVM bergantung pada fungsi kernel serta parameter yang digunakan. Oleh karena itu diperlukan estimasi parameter terbaik untuk mengoptimasi kinerjanya. Ada beberapa cara yang dapat dilakukan antara lain cross validation, dan -estimator yang merupakan modifikasi dari leave-one-out yang diusulkan oleh Joachims (1999). K-folds cross validation dapat digunakan untuk menentukan nilai parameter dan parameter kernel yang tidak overfit terhadap data pelatihan [13]. Dengan metode ini, data yang diambil secara acak kemudian dibagi menjadi buah partisi dengan ukuran yang sama. Selanjutnya, dilakukan iterasi sebanyak. Setiap iterasi digunakan sebuah partisi sebagai data pengujian, sedangkan partisi sisanya digunakan sebagai data pelatihan. Jadi akan dicoba berbagai nilai parameter dan parameter terbaik ditentukan melalui k-folds cross validation Nilai parameter terbaik ditemukan pelatihan dilakukan dengan menggunakan keseluruhan data. Pencarian nilai parameter ini disebut juga grid search.[8] 3. PENELITIAN SEBELUMNYA Pada peneliti ini terdiri dari 4827 ham SMS dan 747 spam SMS dengan melakukan variasi 16 model. Sebelum dilakukan penyaringan terdapat 2 pemrosesan awal yaitu: a. Tok1 dengan menyaring alamat , domain, subdaomain dan tokenisasi. b. Tok2 dengan membuang tanda baca dan angka. Hasil dari penelitian ini menghasilkan akurasi 96,64% dengan menggunkan SVM dan Tok1[11]. Peneliti selanjutnya membahas teknik terbaik yang dapat dilakukan dengan cara menyimpang daftar blacklist, whitelist dan memnyimpan daftar dari spam SMS contohnya free, hot selling dan imprassion. Sedangkan untuk metode klasifikasi menggunkan Bayesian[7]. Chaiyapor kemapatapan melakukan penelitian dengan dua bahasa yaitu Bahasa Thailand dan Bahasa Inggris. Penelitian ini mengumpulkan 400 SMS, terdiri dari 120 spam SMS dan 280 ham SMS. Dengan melakukan 2 metode pemrosesan awal : a. M1 : melakukan teks normalisai dan segmentasi bahasa Thailand. b. M2: melakukan teks normalisasi dan segmentasi bahasa Thailand setelah

3 113 disegmentasi akan diterjemahkan dan dilakukan proses semantic. Hasilnya metode SVM dan M2 menghasilkan akurasi sebesar 95,67 dan Naïve Bayes dan M2 menghasilkan akurasi 86,31[3]. Dijelaskan bahwa data SMS yang dipakai adalah 875 yang terdiri dari 450 ham dan 425 spam SMS dalam Bahasa Inggris. Melakukan pembobotan biner dengan menggunakan klasifikasi naïve bayes, akurasi yang dihasilkan adalah 98.29%[10]. 4. METODOLOGI Gambar 1. Dekripsi Umum Data yang dikumpulkan sebanyak 900 data SMS terdiri dari 800 data latih dan 100 data uji. Setelah dilakukan pengumpulan data makan akan dilalukan pemrosesan awal yaitu akromin, stop word dan token. Setalah dilakukan proses itu akan dilakukan pemecarah kata yang dibagi menjadi dua bedasarkan kata dan n-grm. Setelah isi dari sms di pecah-pecah baik kedalan kata atau ke dalam karakter N-grams, dilakukan pembobotan fitur setelah terbentuk akan ada model a dan model b. Fitur dipilih berdasarkan nilai terbesar. Setelah itu dilakukan pembentukan vektor fitur sebagai inputan dari SVM. Sebelum dilakukan pelatihan data dilakukan proses optimasi parameter. Setelah itu akan dilihat model mana yang memiliki akurasi yang paling baik terdapat 15 model yang akan di uji. Pada model a ini menggunakan 500 fitur karena pada data latih sebanyak 100 SMS terdapat 676 fitur, sehingga dengan memilih 500 fitur diharapkan dapat meningkatkan akurasi. Sisa dari fitur yang tidak dipakai karena memiliki bobot yang rendah. Dapat dilihat pada Tabel 1. Tabel 1. Pengujian model a Nama model Jumlah fitur Model 1a 100 Model 2a 200 Model 3a 300 Model 4a 400 Model 5a 500 Model 6a 100 Model 7a 200 Model 8a 300 Model 9a 400 Model 10a 500 Model 11a 100 Model 12a 200 Model 13a 300 Model 14a 400 Model 15a 500 Teknik Pembobotan Biner Document Frequency Term Frequency Model 1a adalah pembobotan yang menggunaka 100 fitur yang paling sering muncul, pada model 1a menggunakan pembobotan biner. Model 7a adalah pembobotan yang menggunaka 200 fitur yang paling sering muncul pada suatu dokumen, pada model 7a menggunakan pembobotan document frequency. Sedangkan Model 15a adalah pembobotan yang menggunaka 500 fitur yang paling sering muncul pada seluruh dokumen, pada model 15a menggunakan pembobotan term frequency. Untuk pemecah kata menjadi kalimat/uni gram terdapat 36 model yang akan di uji. Pada model b dipilih 2000 fitur teratas karena pada data latih terdapat 3453 fitur. Sisa dari fiturnya tidak dipakai karena hanya memiliki bobot yang rendah. 5. PENGUJIAN Pengujian dilakukan dengan 2 model yaitu model a menggunakan pemecah kalimat menjadi kata, sedangkan model b menggunankan karakter N-grmas. Untuk pemecah kata menjadi kalimat/uni gram

4 114 Tabel 2. Pengujian model b Nama model Jumlah fitur Teknik Pembobotan Model 1b 500 Biner Model 2b gram Model 3b 1500 Model 4b 2000 Model 6b 1000 Biner Model 7b gram Model 8b 2000 Model 9b 500 Model 10b 1000 TF Model 11b gram Model 12b 2000 Model 13b 500 Biner Model 14b gram Model 15b 1500 Model 16b 2000 Model 17b 500 DF Model 18b gram Model 19b 1500 Model 20b 2000 Model 21b 500 Model 22b 1000 TF Model 23b gram Model 24b 2000 Model 25b 500 Biner Model 26b gram Model 27b 1500 Model 28b 2000 Model 29b 500 DF Model 30b gram Model 31b 1500 Model 33b 500 Model 34b 1000 TF Model 35b gram Model 36b 2000 Model 1b adalah pembobotan yang menggunakan 500 fitur yang paling sering muncul, pada model 1b menggunakan pembobotan biner dan pemecah kata menggunakan karakter 3-grams. Model 2b adalah pembobotan yang menggunaka 1000 fitur yang paling sering muncul pada suatu dokumen. Model 18b menggunakan pembobotan document frequency dan pemecah kata menggunakan 4-grams. Model 36b adalah pembobotan yang menggunaka 2000 fitur yang paling sering muncul pada seluruh dokumen, pada model 36b menggunakan pembobotan term frequency dan pemecah kata menggunakan karakter 5- grams. 6. HASIL DAN PEMBAHASAN 6.1. Karakteristik Spam SMS Data yang dikumpulkan sebanyak 450 spam SMS dengan rincian sebagai berikut: 1. Iklan dengan jumlah 380 SMS, terdiri dari 49 SMS yang lebih dari 160 karakter dan 206 SMS yang kurang dari 160 karakter 2. Penipuan dengan Jumlah 70 SMS, terdiri dari 11 SMS yang lebih dari 160 karakter dan 100 SMS yang kurang dari 160 karakter 3. Panjang SMS yang lebih dari 160 karakter sebanyak 60 SMS 4. Panjang SMS yang kurang dari 160 karakter sebanyak 390 SMS. Hasil analisis dari data spam SMS memiliki karakteristik berikut: 1. Bersifat iklan maupun penipuan 2. Banyak kata - kata sambung 3. Banyak kata - kata singkatan 4. Banyak tanda baca 6.2. Pengaruh Karakter N-grams Hasil pengujian dari model a dapat dilihat pada Gambar biasa 10 fold Gambar 2. Hasil Akurasi Model a Gambar 2 menunjukkan diagram hasil klasifikasi SMS dengan menggunakan tiga metode pembobotan. Dari diagram tersebut terlihat metode pembobotan yang memberikan hasil akurasi paling bagus adalah metode pembobotan dengan menggunakan Term Frequency sebesar 91% pada 300 fitur. Kemudian disusul dengan metode Document Frequency sebesar 90% pada 500 fitur dan sedangkan yang tingkat akurasinya paling rendah adalah Term Frequency pada 100 fitur. TF dan jumlah fitur sedikit memberikan nilai akurasi yang rendah disebabkan karena data yang digunakan pada penelitian ini adalah SMS. Kata tertentu akan memiliki nilai TF besar jika kata tersebut muncul berkali-kali di suatu dokumen/sms tetapi tidak sering muncul di dokumen/sms yang lain. Umumnya suatu kata dalam sms hanya muncul sekali. Padahal dalam metode TF besarnya frekuensi/kemunculan kata pada suatu dokumen/sms akan sangat

5 Model 1b Model 3b Model 5b Model 7b Model 9b Model 11b Model 13b Model 15b Model 17b Model 19b Model 21b Model 23b Model 25b Model 27b Model 29b Model 31b Model 33b Model 35b 115 berpengaruh, dan apabila kemunculan kata tersebut di dokumen lain bernilai kecil. Pada penelitian ini fitur-fitur hasil ekstraksi dengan menggunakan metode TF adalah kata-kata yang jarang muncul dan jarang digunakan di dataset yang lain. Oleh karena itu ketika diujikan pada data baru atau data pengujian, fitur-fitur tersebut tidak dapat mengklasifikasikan kelas dengan baik. TF dengan 300 fitur memberikan hasil paling baik, TF pada penelitian ini menggunakan kata atau term dengan jumlah kemunculannya paling tinggi dari keseluruhan dokumen pelatihan untuk setiap kelasnya. Mengingat data yang digunakan adalah SMS dengan keterbatasan jumlah karakternya, sehingga ada kemungkinan kata-kata yang sama akan sering diulang atau sering digunakan untuk sms lain yang bertopik sama. Dari gambar 2 juga terlihat bahwa jumlah fitur yang digunakan dari 500 fitur, 400 fitur,300 fitur, 200 fitur, dan 100 fitur. Jumlah fitur mempengarusi akurasi dari gambar diatas dapat disimpulkan jumlah fitur 500 menghasilkan akurasi yang stabil. Sedangkan pada jumlah fitur yang sedikit mengahasilkan akurasi yang rendah. Pada grafik diatas menunjukan model 13a mengalami kenaikan 29% dibandingkan dengan tidak menggunak 10 fold cross validation. Sedangkan 11a mengalami penururan setelah dilakukan 10 fold cross validation sebesar 13%. Hasil pengujian dari model b dapat dilihat pada Gambar % 80% 60% 40% 20% 0% Gambar 3. Hasil Pengujian Model b Pada Gambar 3 diatas ada 4 akurasi terbaik masing masing adalah biner dengan 1500 fitur, df dengan 1000 fitur, tf dengan 1500 dan tf dengan 1500 fitur. Pencacah SMS menggunakan karakter 3-grams, 4 grams, dan karakter 5-grams menunjukan bahwa dengan menggunakan 3 grams menghasilkan akurasi yang stabil. Pada 3 grams membagi kata menjadi 3 huruf, karena membagi menjadi 3 huruf menjadikan kata yang dibagi menjadi unik. Berbeda dengan yang laiannya. Sedangkan untuk jumlah fitur yang memiliki akurasi yang paling baik ada 1500 fitur baik dengan pembobot biner, DF dan TF. Karena 1500 fitur yang dipilih mewakili kata-kata yang muncul pada SMS. 7. KESIMPULAN Berikut ini adalah kesimpulan yang diperoleh selama penelitian dan pembangunan prototipe penyaringan spam SMS: 1. N-gram menghasilkan akurasi yang terbaik pada data uji sebesar 95% untuk semua pembobotan dengan jumlah fitur 1000 dan 1500, Sedangkan untuk data uji dengan nilai C= 512 dan γ= dengan akurasi 96,625 dengan pembobotan trem freqeuncy dan jumlah fiturnya Kesalahan peneliti setelah dilakukan kajian terhadap data uji 100% (50 SMS spam) data yang dipakai adalah SMS Spam yang berisi tetang penipuan, sedangkan pada data latih 5% dari 400 SMS spam yang mengandung SMS penipuan. Sehingga nilai akurasi dari penelitian ini lebih rendah dari peneliti sebelumnya itu disebabkan oleh fitur pada data latih tidak banyak digunakan pada data uji, fold cross validation digunakan untuk memprediksi keakuratan data latih. Dataset yang telah dibuat dibagi menjadi subset k. Dalam tesis ini nilai dari k adalah 10, maka akan dilakukan 10 iterasi proses latih dan uji, dengan 9/10 subset sebagai data latih dan 1/10 subset sebagai data uji secara bergantian. Sehingga untuk setiap subset berkesempatan menjadi data uji. Dengan menggunakan cross validation pada data uji dapat meningkatkan akurasi 29% dari yang asalnya 62% pada pemecahan kalimat menjadi kata atau pada penggunaan Term Frequency.Variabel C dan γ sangat berpengaruh pada penelitian ini sebab variable c berguna agar tidak overfiting pada data pelatihan

6 116 sedangkan variable γ berfungsi untuk transformasi ke feature space. Grid search bengfungsi untuk menentukan variable C dan γ terbaik, semakin tinggi C membuat garis pemisah menjadi hardmargin sedangkan terlalu kecilnya variable C akan banyak data yang salah klasifikasi. Pengaruh variable γ jika terlalu besar akan mengakibatkan support vector antara kedua kelas semakin jauh dan jika terlalu kecil mengakibatkan data salah klasifikasi karena akan banyak data yang tidak sesuai dengan kelasnya, bukankah pada SVM hanya mencari bidang pemisah saja tetapi mencari margin yang optimal antara support vector. Sedang pada karakter N-grams diperoleh kenaikan akurasi 43% dari yang asalnya 50% pada data uji. 3. Sesuai dengan karakteristik pada data yang telah dikumpulkan ada beberapa pemrosesan awal yang dibutuhkan a. Akromin adalah mengganti singkatan dengan kata asalnya b. Stopwords adalah menbuang kata kata sambung yang sering mungcul dan tidak bermakna apa-apa c. Tokenisasi adalah mengbuang karakter yang tidak perlu. 4. Pada pemecah kalimat menjadi kata banyaknya fitur menpengaruhi tingkat akurasinya dan pada karakter N-gram tidak mempengaruhi akurasi. 5. Kontibusi dari penelitian ini adalah penerapan karakter N-grams pada pencacah kata dan pengumpulan data set SMS spam Berbahasa Indonesia 8. DAFTAR PUSTAKA [1] Asosiasi Telekomunikasi Seluler Indonesia (ATSI) URL: /jumlah-pelangganselulerdiindonesiahampir-mendekati-jumlah-pendudukindonesia/. diakses pada 13 september [2] Beahaki M. Faisal Bayes Spam Classifier pada Pengembangan Aplikasi Mobile SMS, ITB, 2011 [3] Chaiyaporn Khemapatapan. Thai- English Spam SMS Filtering [4] Cloudmark s Definitive Guide to SMS Spam juni 2011 [5] Fletcher. Tristan, Support Vector Machines Explained, Inggris, [6] Hastie. Cross-validation and bootstrap. February [7] Hong-yan Zhang. Application of Bayesian Method to Spam SMS Filtering 2009 [8] Hsu, Chih-Wei, A Practical Guide to Support Vector Classification, Taiwan, National Taiwan University, [9] José María Gómez Hidalgo. Content Based SMS Spam Filtering [10] M. Taufiq Nuruzzama Independent and Personal SMS Spam Filtering Dept. of Informatics Engineering, State Islamic University Sunan Kalijaga,2011,IEEE International Conference on Computer and Information Technology [11] Tiago A. Almeida,Contributions to the Study of SMS Spam Filtering: New Collection and Results, September 2011 [12] XIA Hu, FU Yan. Sampling of Mass SMSPenyaringan Algoritm Based on Frequent Time Domain Area [13] Joachims. Thorsten, Making Large- Scale SVM Learning Practical, Universitait Dortmund, Jerman, 1999.

Pengaruh Tokenisasi Kata N-Grams Spam SMS Menggunakan Support Vector Machine

Pengaruh Tokenisasi Kata N-Grams Spam SMS Menggunakan Support Vector Machine Pengaruh Tokenisasi Kata N-Grams Spam SMS Menggunakan Support Vector Machine Castaka Agus Sugianto 1, Tri Herdiawan Apandi 2 1 Informatika, Politeknik TEDC Bandung. 2 Informatika, Politeknik TEDC Bandung.

Lebih terperinci

BAB 1 PENDAHULUAN Latar Belakang

BAB 1 PENDAHULUAN Latar Belakang 9 BAB 1 PENDAHULUAN Latar Belakang Short Message Service (SMS) merupakan salah satu media komunikasi yang banyak digunakan saat ini karena praktis untuk digunakan dan biaya pengirimannya murah. Namun,

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma.

BAB II DASAR TEORI. Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. BAB II DASAR TEORI Pada bab ini akan dibahas teori-teori pendukung yang digunakan sebagai acuan dalam merancang algoritma. 2.1. Microsoft Visual Studio Microsoft Visual Studio adalah sebuah software yang

Lebih terperinci

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

LAPORAN TUGAS AKHIR. Disusun oleh: Franky LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis

Lebih terperinci

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA Prawidya Destarianto 1, Wahyu Kurnia Dewanto 2, Hermawan Arief Putranto 3 1,2,3 Jurusan, Teknologi

Lebih terperinci

1. Pendahuluan 1.1 Latar Belakang

1. Pendahuluan 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Teknologi semakin berkembang seiring dengan berjalannya waktu. Disadari atau tidak, sebagian besar kehidupan ini dibantu oleh teknologi dan banyak sekali manfaat yang

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010). BAB I PENDAHULUAN A. Latar Belakang SMS atau Short Message Service merupakan salah satu layanan teknologi yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile seperti telepon genggam.

Lebih terperinci

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM)

KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) KLASIFIKASI WILAYAH DESA-PERDESAAN DAN DESA-PERKOTAAN WILAYAH KABUPATEN SEMARANG DENGAN SUPPORT VECTOR MACHINE (SVM) SKRIPSI Disusun Oleh : MEKAR SEKAR SARI NIM. 24010210120008 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

BAB I PENDAHULUAN. Jumlah  spam di dunia semakin meningkat secara eksponensial. BAB I PENDAHULUAN 1.1 Latar Belakang Jumlah email spam di dunia semakin meningkat secara eksponensial. Dilaporkan bahwa pada tahun 1978 sebuah email spam dikirimkan ke 600 alamat email. Sedangkan pada

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk  Spam Filtering Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk E-mail Spam Filtering Proposal Tugas Akhir KBK: Rekayasa Perangkat Lunak dan Data (RPLD) Moh. Mahsus 113060088

Lebih terperinci

SVM untuk Regresi Ordinal

SVM untuk Regresi Ordinal MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

ALGORITMA SUPPORT VECTOR MACHINE UNTUK MENDETEKSI SMS SPAM BERBAHASA INDONESIA

ALGORITMA SUPPORT VECTOR MACHINE UNTUK MENDETEKSI SMS SPAM BERBAHASA INDONESIA ALGORITMA SUPPORT VECTOR MACHINE UNTUK MENDETEKSI SMS SPAM BERBAHASA INDONESIA Candra Putra Susanto dan Esther Irawati Setiawan Teknologi Informasi Sekolah Tinggi Teknik Surabaya Candra.ptr19@gmail.com

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

PENGENALAN CITRA TULISAN TANGAN DOKTER DENGAN MENGGUNAKAN SVM DAN FILTER GABOR

PENGENALAN CITRA TULISAN TANGAN DOKTER DENGAN MENGGUNAKAN SVM DAN FILTER GABOR PENGENALAN CITRA TULISAN TANGAN DOKTER DENGAN MENGGUNAKAN SVM DAN FILTER GABOR Angga Lisdiyanto (1), Lukman Zaman P.C.S.W (2) Teknik Informatika, Universitas Islam Lamongan (1) Teknik Informatika, Sekolah

Lebih terperinci

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Moch. Ali Machmudi 1) 1) Stmik Bina Patria UJI PENGARUH KARAKTERISTIK DATASET PADA PERFORMA ALGORITMA KLASIFIKASI Moch. Ali Machmudi 1) 1) Stmik Bina Patria 1) Jurusan Manjemen Informatika-D3 Email : 1 aliadhinata@gmail.com 1) Abstrak Tujuan utama

Lebih terperinci

Perbandingan Algoritma Pendeteksian Spam

Perbandingan Algoritma Pendeteksian Spam Perbandingan Algoritma Pendeteksian Spam Andros, Dimas Prawita, Juan Karsten, Maldy Vinandar Fakultas Ilmu Komputer, Universitas Indonesia Depok, Jawa Barat, Indonesia andros@ui.ac.id, dimas.prawita@ui.ac.id,

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6124 SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset Dea Delvia Arifin 1, Shaufiah,

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi yang pesat mempermudah akses terhadap informasi tekstual yang sangat besar jumlahnya, baik yang terdapat pada Internet maupun pada koleksi dokumen

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM)

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM) PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN SUPPORT VECTOR MACHINE (SVM) 1 Lestari Handayani, 2 Fitriandini Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Sultan Syarif

Lebih terperinci

SVM untuk Ranking. Model Linear

SVM untuk Ranking. Model Linear MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA

PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA PRESENTASI TUGAS AKHIR IMPLEMENTASI PENGGABUNGAN ALGORITMA SUPPORT VECTOR MACHINE DAN SIMULATED ANNEALING PADA PERMASALAHAN KLASIFIKASI POLA Penyusun Tugas Akhir : Astris Dyah Perwita (NRP : 5110.100.178)

Lebih terperinci

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha

ABSTRAK. Kata kunci: Spam, Android, Pesan, Java, Webservice. Universitas Kristen Maranatha ABSTRAK Penipuan dengan menggunakan pesan singkat pada ponsel yang diterima oleh pengguna sampai sekarang ini masih sangat banyak. Pesan penipuan ini dikirim oleh orang yang tidak bertanggung jawab dan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS Vol.2 No.2, November 2017, pp. 7~13 ISSN: 2527-449X E-ISSN: 2549-7421 7 Komparasi Algoritma Support Machine, Naïve Dan C4.5 Untuk Klasifikasi SMS Retno Sari STMIK Nusa Mandiri e-mail: bee.retno@gmail.com

Lebih terperinci

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii

Abstrak. Kata Kunci : Aplikasi Chat, Text Mining, Spam filtering. vii Abstrak Internet telah menjadi sesuatu hal yang penting dalam perkembangan sarana komunikasi. Salah satu fasilitas komunikasi yang terdapat pada internet adalah internet relay chat atau yang sering dikenal

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

Klasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor

Klasifikasi  Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor D-344 JURNAL SAINS DAN SENI ITS Vol. 5 No. 2 (2016) 2337-3520 (2301-928X Print) Email Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor Shiela Novelia Dharma Pratiwi, Brodjol

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

Metode Kernel. Machine Learning

Metode Kernel. Machine Learning MMA10991 Topik Khusus Machine Learning Metode Kernel Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439,

Lebih terperinci

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK SPAM FILTERING

IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK  SPAM FILTERING IMPLEMENTASI DAN ANALISA GRANULAR SUPPORT VECTOR MACHINE DENGAN DATA CLEANING (GSVM-DC) UNTUK E-MAIL SPAM FILTERING Moh.Mahsus 1, ZK. Abdurahman Baizal, SSi., M.Kom. 2, Shaufiah, ST., MT. 3 1,3 Program

Lebih terperinci

Implementasi dan Analisis Klasifikasi Spam Pada Pesan Singkat Seluler Dengan Pendekatan Collaborative Filtering Menggunakan Naïve Bayes

Implementasi dan Analisis Klasifikasi Spam Pada Pesan Singkat Seluler Dengan Pendekatan Collaborative Filtering Menggunakan Naïve Bayes Implementasi dan Analisis Klasifikasi Spam Pada Pesan Singkat Seluler Dengan Pendekatan Collaborative Filtering Menggunakan Naïve Bayes Implementation and Analysis of Spam Classification on Short Text

Lebih terperinci

1. Pendahuluan. 1.1 Latar Belakang

1. Pendahuluan. 1.1 Latar Belakang 1. Pendahuluan 1.1 Latar Belakang Persaingan dalam dunia bisnis, terlebih lagi bagi perusahaan besar, tidak lepas dari adanya proses jual beli saham. Saham secara umum merupakan surat berharga yang dapat

Lebih terperinci

BAB III ANALISIS DAN PENYELESAIAN MASALAH

BAB III ANALISIS DAN PENYELESAIAN MASALAH BAB III ANALISIS DAN PENYELESAIAN MASALAH 3.1 Deskripsi Sistem Gambar III-1 Deskripsi Umum Sistem Pada gambar III-1 dapat dilihat deskripsi sistem sederhana yang mendeteksi intrusi pada jaringan menggunakan

Lebih terperinci

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor

BAB I PENDAHULUAN. Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor BAB I PENDAHULUAN 1.1 Latar Belakang Pada zaman sekarang ini bagi sebagian masyarakat kendaraan bermotor jenis mobil ataupun sepeda motor tidak lagi menjadi kebutuhan sekunder, melainkan telah menjadi

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

SVM untuk Regresi. Machine Learning

SVM untuk Regresi. Machine Learning MMA10991 Topik Khusus - Machine Learning Dr. rer. nat. Hendri Murfi Intelligent Data Analysis (IDA) Group Departemen Matematika, Universitas Indonesia Depok 16424 Telp. +62-21-7862719/7863439, Fax. +62-21-7863439,

Lebih terperinci

Analisis Akurasi Support Vector Machine...

Analisis Akurasi Support Vector Machine... ANALISIS AKURASI SUPPORT VECTOR MACHINE DENGAN FUNGSI KERNEL GAUSSIAN RBF UNTUK PRAKIRAAN BEBAN LISTRIK HARIAN SEKTOR INDUSTRI Luqman Assaffat 1 * 1 Jurusan Teknik Elektro, Fakultas Teknik, Universitas

Lebih terperinci

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes

Spam Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Filtering Dengan Metode Pos Tagger Dan Klasifikasi Naïve Bayes Wirawan Nathaniel Chandra 1, Gede Indrawan

Lebih terperinci

ABSTRAK. Universitas Kristen Maranatha

ABSTRAK. Universitas Kristen Maranatha ABSTRAK Perkembangan multimedia saat ini sangat cepat. Dengan multimedia, pengguna dapat menyerap informasi dengan lebih mudah, sehingga pemilihan informasi yang tepat menjadi penting. Pemilihan informasi

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID SOFTWARE APPLICATION

ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID SOFTWARE APPLICATION Jurnal Penelitian Pendidikan Indonesia (JPPI) ISSN 2477-2240 (Media Cetak). 2477-3921 (Media Online) ANALISA KECENDERUNGAN KARAKTER BERDASARKAN KEYWORD DALAM SHORT MESSAGE SERVICE BERBASIS PROTOTYPE ANDROID

Lebih terperinci

2.Jenis Serangan Berikut Berikut ini daftar serangan yang terdapat dalam dataset:

2.Jenis Serangan Berikut Berikut ini daftar serangan yang terdapat dalam dataset: Analisis Support vector machines pada Deteksi Misuse untuk Intrusion Detection System Faris Alfa Mauludy 1, Adiwijaya 2, GiaSeptiana 3 1 Prodi S1 Teknik Informatika, Telkom Informatics School, Universitas

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1. 1.1 Latar Belakang Perkembangan dunia telekomunikasi meningkat secara signifikan dalam kurun waktu satu dekade terahir. Tidak hanya dari segi jumlah pengguna, jenis layanan yang ditawarkanpun

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISEM 3.1 Analisis Masalah Pelaksanaan skripsi pada program studi eknik Informatika UNIKOM setiap tahunnya, berdampak pada laporan skripsi yang semakin bertambah dan mengakibatkan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Penelitian terdahulu sangat penting bagi penulis untuk mengetahui referensi dan hubungan antara penelitian terdahulu dengan penelitian yang dilakukan saat ini, sehingga hal duplikasi

Lebih terperinci

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali

BAB I PENDAHULUAN. Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali BAB I PENDAHULUAN 1.1. Latar Belakang Sistem penglihatan manusia memiliki akurasi yang besar dalam mengenali objek 3 dimensi. Sistem penglihatan manusia dapat membedakan berbagai macam objek 3 dimensi

Lebih terperinci

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta

Text Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk

Lebih terperinci

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014

ISSN : e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 ISSN : 2355-9365 e-proceeding of Engineering : Vol.4, No.3 Desember 2017 Page 5014 Klasifikasi Informasi, Anjuran dan Larangan pada Hadits Shahih Bukhari menggunakan Metode Support Vector Machine. Andina

Lebih terperinci

KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI

KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI KLASIFIKASI PENERIMA PROGRAM BERAS MISKIN (RASKIN) DI KABUPATEN WONOSOBO DENGAN METODE SUPPORT VECTOR MACHINE MENGGUNAKAN LibSVM SKRIPSI Oleh : YOGI SETIYO PAMUJI 24010211130053 JURUSAN STATISTIKA FAKULTAS

Lebih terperinci

PENDETEKSIAN CITRA PALSU DENGAN MENGGUNAKAN WATERMARKS DAN SUPPORT VECTOR MACHINES. Daniel Hutabarat ( )

PENDETEKSIAN CITRA PALSU DENGAN MENGGUNAKAN WATERMARKS DAN SUPPORT VECTOR MACHINES. Daniel Hutabarat ( ) PENDETEKSIAN CITRA PALSU DENGAN MENGGUNAKAN WATERMARKS DAN SUPPORT VECTOR MACHINES Daniel Hutabarat ( 0522097 ) Jurusan Teknik Elektro, Fakultas Teknik, Universitas Kristen Maranatha Jl. Prof. Drg. Surya

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Dalam bab ini dibahas teori yang digunakan sebagai landasan pengerjaan Support Vector Backpropagation. Pembahasan bertujuan untuk menguraikan teori dan algoritma yang digunakan dalam

Lebih terperinci

PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT

PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT PENERAPAN MODEL MESIN BELAJAR SUPPORT VECTOR MACHINES PADA AUTOMATIC SCORING UNTUK JAWABAN SINGKAT TUGAS AKHIR Diajukan Untuk Memenuhi Sebagian Prasyarat Mencapai Derajat Teknik Informatika Disusun Oleh

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.10, No.1, Februari 2016 ISSN: 0852-730X Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram Denny Nathaniel

Lebih terperinci

BAB I PENDAHULUAN.

BAB I PENDAHULUAN. BAB I PENDAHULUAN 1.1. Latar Belakang Saat ini smartphone telah berevolusi menjadi komputer pribadi kecil dan portabel yang memungkinkan pengguna untuk melakukan penjelajahan internet, mengirim e-mail

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat

Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 5899 Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat Gde Surya

Lebih terperinci

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan

Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan Penerapan Teknik Support Vector Machine untuk Pendeteksian Intrusi pada Jaringan LAPORAN TUGAS AKHIR Disusun sebagai syarat kelulusan tingkat sarjana oleh : Krisantus Sembiring / 13503121 PROGRAM STUDI

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X

Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 1, No. 12, Desember 2017, hlm. 1725-1732 http://j-ptiik.ub.ac.id Analisis Sentimen Tingkat Kepuasan Pengguna Penyedia Layanan

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

PLUG-IN CLASSIFIER DENGAN BAYESIAN STATISTICS UNTUK MENDETEKSI SITUS WEB PALSU

PLUG-IN CLASSIFIER DENGAN BAYESIAN STATISTICS UNTUK MENDETEKSI SITUS WEB PALSU PLUG-IN CLASSIFIER DENGAN BAYESIAN STATISTICS UNTUK MENDETEKSI SITUS WEB PALSU Anisah, Sapto W. Indratno Jurusan Matematika FMIPA ITB Abstrak Meningkatnya penipuan melalui situs web palsu mendorong orang

Lebih terperinci

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan 1 BAB I PENDAHULUAN 1.1 Latar Belakang Pesatnya perkembangan media sosial menawarkan pengguna kesempatan untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan tidak lagi memiliki

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori

Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Penghitungan k-nn pada Adaptive Synthetic-Nominal (ADASYN-N) dan Adaptive Synthetic-kNN (ADASYN-kNN) untuk Data Nominal- Multi Kategori Abstrak 1 Sri Rahayu, 2 Teguh Bharata Adji & 3 Noor Akhmad Setiawan

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY KLASIFIKASI CITRA DOKUMEN MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN EKSTRAKSI CIRI TERM FREQUENCY INVERSE DOCUMENT FREQUENCY Arif Munandar *), Achmad Hidayatno, and Teguh Prakoso Departemen Teknik

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang Musim hujan merupakan musim yang mutlak ada di sebagian belahan benua dunia. Dan curah hujan pasti memiliki

BAB I PENDAHULUAN 1.1 Latar Belakang Musim hujan merupakan musim yang mutlak ada di sebagian belahan benua dunia. Dan curah hujan pasti memiliki BAB I PENDAHULUAN 1.1 Latar Belakang Musim hujan merupakan musim yang mutlak ada di sebagian belahan benua dunia. Dan curah hujan pasti memiliki intensitas yang berbeda. Faktor penyebabnya dapat terjadi

Lebih terperinci

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Jurnal Informatika Polinema ISSN: 2407-070X IMPLEMENTASI TWITTER SENTIMENT ANALYSIS UNTUK REVIEW FILM MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE Faisal Rahutomo 1, Pramana Yoga Saputra 2, Miftahul Agtamas

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1. Data Mining Data mining adalah proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya menjadi informasi-informasi penting yang dapat dipakai untuk meningkatkan

Lebih terperinci

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor Yusra 1, Dhita Olivita 2, Yelfi Vitriani 3 1,2,3 Jurusan Teknik

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci