Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat

dokumen-dokumen yang mirip
Analisis dan Implementasi Algoritma Graph-based K-Nearest Neighbour untuk Klasifikasi Spam pada Pesan Singkat

Bandung, Indonesia Bandung, Indonesia

JURNAL ITSMART Vol 3. No 2. Desember 2014 ISSN :

BAB II LANDASAN TEORI. Pada bab ini akan dibahas mengenai konsep dasar masalah. penjadwalan kuliah, algoritma memetika serta komponen algoritma

pengukuran karakteristik I-V transistor. Kemudian dilanjutkan dengan penyesuaian (fitting) hasil tersebut menggunakan model TOM.

BAB III METODOLOGI PENELITIAN

BAB III METODE PENELITIAN

BAB 1 PENDAHULUAN Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

SPASIAL CLASIFICATION MINING UNTUK MENENTUKAN PRAKIRAAN CURAH HUJAN BERDASARKAN KARAKTERISTIK WILAYAH

PENGEMBANGAN DAN ANALISIS TES KIMIA BERBASIS OPEN- ENDED PROBLEM UNTUK MENGUKUR KEMAMPUAN BERPIKIR KREATIF SISWA

Implementasi dan Analisis Klasifikasi Spam Pada Pesan Singkat Seluler Dengan Pendekatan Collaborative Filtering Menggunakan Naïve Bayes

ISSN : e-proceeding of Engineering : Vol.2, No.3 Desember 2015 Page 7838

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

LAMPIRAN. Lampiran 1. Hasil Wawancara

KETERAMPILAN BERPIKIR TINGKAT TINGGI PESERTA DIDIK SMA PADA PEMBELAJARAN KONSEPPROTISTAMELALUI PENDEKATAN INKUIRI TERBIMBING. Oleh : Fathul Zannah *

STUDI ANALISA PERHITUNGAN DAN PENGATURAN RELAI ARUS LEBIH DAN RELAI GANGGUAN TANAH PADA KUBIKEL CAKRA 20 KV DI PT XYZ. Budi Yanto Husodo 1,Muhalan 2

Analisis dan Implementasi Algoritma Differential Evolution Pada Jaringan Syaraf Tiruan Studi Kasus Prediksi Masa Studi Mahasiswa

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

JURNAL SAINTIFIK VOL.2 NO.2, JULI Murtafiah Universitas Sulawesi Barat

MENINGKATKAN KEMAMPUAN MEMBEDAKAN WARNA BENDA MELALUI METODE PEMBERIAN TUGAS PADA ANAK USIA 4-5 TAHUN

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN Latar Belakang

BAB III ANALISIS DAN PERANCANGAN

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PENGEMBANGAN MEDIA PEMBELAJARAN FLIPCHART UNTUK MENINGKATKAN PENGETAHUAN BENCANA GEMPA BUMI PADA SISWA DI SMP N 1 CAWAS

EVALUASI SETTING RELAY OCR, GFR DAN RECLOSER PASCA REKONFIGURASI JARINGAN DISTRIBUSI PADA TRAFO 2 GARDU INDUK SRONDOL SEMARANG MENGGUNAKAN ETAP 12.6.

KLASIFIKASI CITRA FORMULIR MENGGUNAKAN METODE SUPPORT VECTOR MACHINE (SVM) PADA PROSES DIGITALISASI FORMULIR

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

10/11/2014. CIG4E3 / Pengolahan Citra Digital BAB 8. Image Segmentation (Edge Detection) Definisi Egde. Cara Kerja Spatial Filter [1]

Implementasi Pembelajaran Kooperatif Ni Komang Sukertiasih 69

BAB II LANDASAN TEORI

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

OPTIMASI KLASIFIKASI SEL TUNGGAL PAP SMEAR MENGGUNAKAN CORRELATION BASED FEATURES SELECTION (CFS) BERBASIS C4.5 DAN NAIVE BAYES

p da p da Gambar 2.1 Gaya tekan pada permukaan elemen benda yang ter benam aliran fluida (Mike Cross, 1987)

EVALUASI KETEPATAN KLASIFIKASI KELULUSAN TES KETERAMPILAN SNMPTN BIDANG OLAHRAGA MENGGUNAKAN ANALISIS DISKRIMINAN KERNEL

KLASIFIKASI PADA TEXT MINING

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

2016 SISTEM PRED IKSI SPAM ACCOUNT PAD A MED IA SOSIAL TWITTER D ENGAN MENGGUNAKAN ALGORITMA C4.5

KLASIFIKASI PADA TEXT MINING

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Perbandingan 5 Algoritma Data Mining untuk Klasifikasi Data Peserta Didik

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

TINJAUAN PUSTAKA. i dari yang terkecil ke yang terbesar. Tebaran titik-titik yang membentuk garis lurus menunjukkan kesesuaian pola

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

SMS Filtering Menggunakan Naive Bayes Classifier dan FP-Growth Algorithm Frequent Itemset

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN.

ANALISIS KLASIFIKASI SENTIMEN LEVEL ASPEK MENGGUNAKAN PENDEKATAN PEMBELAJARAN SUPERVISED

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

ANALISIS SENTIMEN DATA KRITIK DAN SARAN PELATIHAN APLIKASI TEKNOLOGI INFORMASI (PATI) MENGGUNAKAN ALGORITMA SUPPORT VECTOR MACHINE

LAPORAN KALIBRASI ALAT UKUR VOLUMETRIK

BAB I PENDAHULUAN 1.1 Latar Belakang

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

OPTIMASI TEKNIK KLASIFIKASI MODIFIED K NEAREST NEIGHBOR MENGGUNAKAN ALGORITMA GENETIKA

TINGKAT ASUPAN ENERGI DAN PROTEIN DENGAN STATUS GIZI BAYI USIA 6-24 BULAN

BAB II TINJAUAN PUSTAKA

Perbandingan Algoritma Pendeteksian Spam

PELABELAN PADA GRAPH ( ), DENGAN

Penghitungan panjang fetch efektif ini dilakukan dengan menggunakan bantuan peta

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Analisis Pengaruh Jarak Sirip Vertikal Dan Kecepatan Angin Terhadap Perpindahan Panas Pada Motor 4 Tak

BAB III METODELOGI PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

20 SEBATIK STMIK WICIDA

Klasifikasi Spam dengan Menggunakan Metode Support Vector Machine dan k-nearest Neighbor

BAB I PENDAHULUAN 1.1 Latar Belakang

Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier

Klasifikasi Teks Pesan Spam Menggunakan Algoritma Naïve Bayes

PREDIKSI KEBANGKRUTAN PERUSAHAAN MENGGUNAKAN ALGORITMA C4.5 BERBASIS FORWARD SELECTION

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

BAB II DASAR TEORI. Gambar 2.1 : Gaya pada roket Sumber : (Benson, 2010)

BAB I PENDAHULUAN. Jumlah spam di dunia semakin meningkat secara eksponensial.

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

ANALISIS SENTIMEN PADA TWITTER TERHADAP JASA TRANSPORTASI ONLINE DI INDONESIA DENGAN METODE SUPPORT VECTOR MECHINE

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

ANALISIS KARAKTERISTIK GELOMBANG DAN PASANG SURUT PADA DAERAH PANTAI PAAL KECAMATAN LIKUPANG TIMUR KABUPATEN MINAHASA UTARA

BAB I PENDAHULUAN. untuk bisa mengeluarkan pendapat dan ekspresi secara bebas. Itu artinya perusahaan

Gambar 1.1 Nilai Ekspor Mebel Indonesia, dan negara-negara pesaing di Asia, 2005

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

PERATURAN PEMERINTAH REPUBLIK INDONESIA NOMOR 10 TAHUN 1979 TENTANG PENILAIAN PELAKSANAAN PEKERJAAN PEGAWAI NEGERI SIPIL PRESIDEN REPUBLIK INDONESIA,

BAB II TINJAUAN PUSTAKA

E-Jurnal Sariputra, Juni 2015 Vol. 2(2)

PEMODELAN MATEMATIS UNTUK MENGHITUNG KEMAMPUAN PRODUKSI SUMUR GAS

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang

Gambar II.1. Skema Sistem Produksi

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

ANALISIS KOORDINASI SIMPANG JALAN DIPONEGORO KOTA METRO

BAB I. Pendahuluan. 1. Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

DESAIN BENTUK SUDUT SUDUT ARAH RADIAL PADA POMPA SENTRIFUGAL

Transkripsi:

Analisis dan Implementasi Aloritma Graph-based K-Nearest Neihbour untuk Klasifikasi Spam pada Pesan Sinkat Gde Surya Pramartha Proram Studi Sarjana Teknik Informatika Fakultas Informatika Telkom University Bandun, Indonesia suryapramartha@mail.com Abstrak : Pesan sinkat atau Short Messae Service (SMS) adalah salah satu layanan komunikasi yan sanat populer pada mobile phone saat ini karena kemudahan penunaan, sederhana, cepat, dan murah. Meninkatnya penunaan mobile phone ini dimanfaatkan oleh banyak pihak untuk mendapatkan keuntunan, salah satunya adalah menirimkan spam melalui SMS. Spam biasanya berisikan iklan dari suatu produk, promosi, atau malware yan sanat menanu penuna mobile phone. Oleh sebab itu, dalam tuas akhir ini dibuatlah SMS spam filter untuk menyarin SMS yan menunakan aloritma Graph-based K- Nearest Neihbour (GKNN). SMS yan didapatkan terlebih dahulu di preprocessin kemudian data akan direpresentasikan ke dalam model raf berbobot dan berarah. Penujian aloritma dilakukan denan menunakan skenario pembaian data 5-fold dan 10-fold dan didapatkan hasil denan rata-rata akurasi mencapai 99,06% untuk 5-fold dan 99,13% untuk 10-fold. Kata Kunci : spam, spam filterin, preprocessin, klasifikasi, k-nearest neihbour, raphbased k-nearest neihbour I. Pendahuluan Pesan sinkat atau Short Messae Service (SMS) adalah salah satu layanan komunikasi yan sanat populer pada mobile phone saat ini. SMS diunakan oleh jutaan penuna mobile phone setiap harinya karena kemudahan penunaan, sederhana, cepat, dan murah [1. Generasi terbaru dari mobile phone, yan biasanya disebut smart phone, menunakan SMS tidak hanya sebaai alat berkomunikasi, namun jua diunakan untuk berbaai kebutuhan seperti otentifikasi mobilebankin,dan sinkronisasi media sosial (Facebook, Twitter) [1. Meninkatnya penunaan smart phone saat ini dimanfaatkan oleh banyak pihak untuk mendapatkan keuntunan, salah satunya adalah menirimkan spam melalui SMS. Spam, didefinisikan oleh The Spam Track pada Text Retrieval Conference (TREC) adalah suatu konten yan tidak diminta dan tidak dikehendaki yan dikirim sembaran, baik lansun maupun tidak lansun oleh penirim yan tidak memiliki hubunan denan penerima [2. Spam SMS adalah Spam yan dikirim melalui SMS. Spam biasanya berisikan iklan dari suatu produk, promosi, atau malware. Bai kebanyakan oran, hal ini sanatlah menanu sehina membuat penananan terhadap spam pada SMS sanat pentin untuk dilakukan. Dari kondisi tersebut, maka pada tuas akhir ini, dibuatlah suatu cara untuk melakukan penyarinan pada SMS dan melakukan klasifikasi SMS ke dalam kateori spam dan bukan spam (ham). 1

Klasifikasi adalah suatu teknik pada data minin, dimana terdapat set atau kumpulan data yan sudah memiliki label dan diunakan untuk membuat model untuk menentukan label dari data yan besar [3. Beberapa aloritma yan dapat diunakan untuk melakukan klasifikasi adalah pohon keputusan ( Decision tree), Bayesian Classifier, SVM (Support Vector Machine), Neural Network, dan KNN (k- Nearest Neihbour) [4. Kumpulan data yan sudah memiliki label disebut data trainin. Pada kasus ini, data trainin yan diunakan berupa kumpulan SMS yan cenderun bebas dan tidak teratur, sehina sebelum dilakukan proses klasifikasi, data SMS yan didapatkan terlebih dahulu di preprocessin untuk membersihkan, menyederhanakan dan membuat data lebih teratur. Preprocessin yan dilakukan berupa penananan sinkatan, menhilankan tanda baca, stemmin, tokenisasi dan feature selection. Dari penelitian yan pernah dilakukan tentan klasifikasi, didapatkan hasil bahwa aloritma Graph-based K- Nearest Neihbour(GKNN) dapat melakukan klasifikasi SMS denan tinkat akurasi sebesar 98,9% [5. Berdasarkan penelitian tersebut, maka dipilihlah GKNN sebaai aloritma yan diunakan untuk melakukan proses klasifikasi pada SMS filter di tuas akhir ini. Pada Jurnal ini selanjutnya akan membahas : pada baian II, akan membahas tentan tinjauan pustaka, baian III membahas tentan ambaran umum sistem, baian IV akan membahas tentan hasil penujian dan baian V berisi kesimpulan. II. Tinjauan Pustaka Short Messae Service (SMS) Pesan sinkat atau Short Messae Service (SMS) adalah salah satu layanan komunikasi yan sanat populer pada mobile phone. SMS diunakan oleh jutaan penuna mobile phone setiap harinya karena kemudahan penunaan, sederhana, cepat, dan murah [1. Servis dari SMS diatur oleh pusat distribusi pesan yan disebut SMSC ( Short Messae Service Center) yan bertanunjawab dalam menirimkan pesan ke perankat penuna. Gambaran dari sistem dasar SMS adalah sebaai berikut : Komponen lainnya yaitu MSC (Mobile Switchin Center), bertanunjawab pada proses routin call dan pesan. Call Tower atau BTS (Base Station) bertuas untuk menambil peniriman pesan ke perankat mobile. Sedankan GMSC ( Gateway Mobile Switchin Center) bertanunjawab dalam menambil peniriman pesan antar jarinan atau antar operator mobile [9. Spam Filterin Gambar 1. Sistem dasar SMS Spam adalah suatu konten yan tidak diminta dan tidak dikehendaki yan dikirim sembaran, baik lansun maupun tidak lansun oleh penirim yan tidak memiliki hubunan denan penerima [2. Spam biasanya berisikan iklan dari suatu produk, promosi, atau malware yan bersifat meruikan bai penerimanya. Spam filter adalah suatu teknik yan secara otomatis mendeteksi spam denan tujuan melakukan penyarinan terhadap pesan yan masuk. Terdapat beberapa teknik yan dapat diterapkan 2

untuk menurani spam pada mobile. Conten-based filterin adalah teknik yan palin banyak diunakan untuk melakukan filterin spam [10. Beberapa aloritma yan termasuk dalam teknik Contentbased filterin adalah Bayesian classifier, SVM (Support Vector Machine), KNN (k- Nearest Neihbour), dan Neural Network. Teknik ini melakukan filterin berdasarkan isi dari suatu pesan kemudian akan di klasifikasikan ke dalam kelas spam atau bukan spam. Model Representasi Berbasis Graf Graf adalah kumpulan (set) titiktitik atau node yan memiliki bobot yan dihubunkan denan aris atau ede. Pada model representasi data berbasis raf, dimisalkan G adalah suatu raf, yan memiliki 3 tupel: G= (V,E,FWM), dimana V adalah kumpulan node, E adalah kumpulan ede yan terhubun ke node. FWM (Feature Weiht Matrix) adalah bobot dari ede yan menhubunkan node. -Node: setiap node pada raf merepresentasikan sebuah token dari hasil feature selection yan dilakukan sebelumnya. Token ini bersifat unik di setiap kelompoknya. -Ede: ede pada raf dibentuk berdasarkan kemunculan 2 buah token pada kelompok raf secara berurutan. -Feature Weiht Matrix(FWM) : misalkan terdapat 2 buah feature/token yaitu i dan j, maka bobot dari FWM(i,j) atau W(i,j) adalah frekuensi kemunculan urutan 2 buah feature tersebut dalam kelompok raf Untuk meninkatkan penukuran denan representasi data berbasis raf, dihitun jua frekuensi kemunculan dari suatu feature pada kelompok raf yaitu W(i,i) sehina pada raf menyimpan informasi berupa frekuensi dari suatu feature dan frekuensi kemunculan 2 buah feature secara berurutan [12. Klasifikasi Klasifikasi adalah supervised learnin method denan tujuan untuk dapat menentukan kelas dari suatu objek ke dalam kateori yan telah didefinisikan sebelumnya. Beberapa aloritma yan dapat diunakan untuk melakukan klasifikasi adalah pohon keputusan ( Decision tree), Bayesian Classifier, SVM (Support Vector Machine), Neural Network, dan KNN (k-nearest Neihbour) [11. Proses klasifikasi biasanya terdiri dari 2 fase yaitu learnin dan test. Pada fase learnin, sebaian data yan telah diketahui kelasnya diunakan untuk membentuk model prediksi. Pada fase test, dilakukan penujian terhadap model yan dibentuk denan data lainnya untuk menetahui akurasi dari model tersebut. Graph-based K-Nearest Neihbour (GKNN) Graph-based K-Nearest Neihbour (GKNN) merupakan penembanan dari K-Nearest Neihbour dimana pada GKNN data trainin terlebih dahulu di representasikan ke dalam bentuk model raf. Tujuannya untuk mempercepat waktu dalam menhitun similarity antara dokumen yan diklasifikasikan denan jumlah sampel dokumen yan besar. Denan representasi ke model data raf, maka dapat mempercepat perhitunan tanpa menurani ukuran sampel data. Suatu raf terdiri dari node, ede dan bobot dari ede, untuk menukur similarity antara 2 raf, maka dilakukan klasifikasi untuk menukur similarity-nya ( i, c i). Feature weiht (FW) mendefinisikan similarity antara 2 buah raf berdasarkan bobot dari node dan ede yan terdapat pada kedua raf. Perhitunan FW : 3

Gambar 2. Pseudo code menhitun Feature weiht [12 Nft(Node fit percent) menunjukkan berapa banyak node pada train raf denan bobot>0 jua ada pada test raf. Nft dapat didefinisikan sebaai berikut : (1) Pertama-tama hitun nilai Nft dari test kata dan train kata denan menhitun frekuensi dari setiap feature pada raf yaitu nilai W(i,i) Jika nilai Nft lebih besar daripada threshold, maka akan dihitun nilai FW dari 2 buah raf. Sebaliknya, jika nilai Nft lebih kecil daripada threshold, maka 2 raf yan dihitun bukan berada dalam satu kateori, sehina tidak perlu menhitun nilai FW. Denan cara ini, kompleksitas dari perhitunan similarity dapat dipercepat. Perhitunan GKNN dapat dilihat pada pseudo code berikut ini : Gambar 3. Pseudo code klasifikasi denan GKNN [12 Penukuran Performansi Penukuran performansi dilakukan untuk menetahui kemampuan dari sistem yan dibanun. Untuk dapat menentukan kebenaran dari hasil yan didapatkan, maka akan dibandinkan hasil dari sistem denan data aslinya. a. Accuracy merupakan ukuran yan diunakan untuk menetahui seberapa besar kebenaran yan didapatkan, dari keseluruhan data. b. Precision merupakan ukuran yan diunakan untuk menetahui seberapa besar hasil yan telah terpilih itu benar 4

Sistem c. Recall merupakan ukuran yan diunakan untuk menetahui seberapa besar yan benar itu terpilih. Spam Spam True Positif False Positif False Neatif True Neatif dilakukan pembanunan model raf yan merepresentasikan kata-kata pada tahap preprocessin. Setelah itu, raf tersebut diproses denan aloritma GKNN dan pesan pada data testin dikelompokkan kedalam kateori spam atau bukan spam berdasarkan data trainin yan sudah dikateorikan. Gambaran umum dari sistem dapat dilihat sebaai berikut: Start Trainin set Preprocessin Testin Case Foldin Slan Handlin Stopword Eliminati Sistem Spam Feature Selection Tokeniza tion Stemmin Spam True Positif False Positif False Neatif True Neatif Dari ketia penukuran tersebut, sistem dianap sanat baik ketika persentasi hasil dari ketianya dapat mencapai nilai Build Graph(Trainin ) Learnin Alorith Preprocessin( Trainin) Model Preprocessin (Testin) Build Graph(Testin) Accuracy terbaik atau mendekati setidaknya 99%. Spam III. Gambaran Umum Sistem Secara umum sistem yan akan dibanun pada tuas akhir ini adalah sistem untuk melakukan filterin terhadap pesan yan masuk dan melakukan penklasifikasian ke dalam 2 kateori, yaitu spam dan bukan spam. Aloritma yan diunakan untuk proses klasifikasi adalah Graph-based k-nearest Neihbour (GKNN) dimana data trainin akan di preprocessin terlebih dahulu, kemudian Dari ambaran umum sistem di atas, terdapat beberapa proses yaitu : 1. Preprocessin Finish Gambar 4.Gambaran umum sistem Pada proses ini, trainin dan testin yan berupa SMS yan belum bersih (teratur,konsisten) akan di proses sehina menhasilkan data yan lebih teratur dan konsisten. Proses yan dilakukan adalah : 5

a. Case Foldin Merubah kata-kata pada data menjadi huruf kecil dan menhilankan semua karakter selain huruf dan anka. b. Slan Handlin Menatasi isi SMS yan berisi kata sinkatan ke dalam arti aslinya c. Stopword Elimination Menhilankan kata-kata yan dianap umum yan tidak terlalu berpenaruh terhadap kualitas data. d. Stemmin Merubah kembali kata-kata yan menalami penambahan imbuhan atau perubahan bentuk kata. e. Tokenization Memecah kalimat pada SMS menjadi kata berdasarkan spasi untuk memudahkan proses selanjutnya selanjutnya. f. Feature Selection Suatu metode yan diunakan untuk menhilankan kata-kata yan tidak memiliki arti atau noisy feature, sehina dapat menyederhanakan perhitunan dan meninkatkan akurasi. 2. Build Graph Setelah dilakukan tahap preprocessin, maka dihasilkan data yan sudah siap diunakan yaitu preprocessin. ini kemudian diunakan sebaai input untuk representasi data berbasis raf. Setiap node pada raf menunjukkan sebuah token yan dipilih pada saat tahap preprocessin. Token ini berupa sebuah kata unik dalam suatu kelompok raf. Ede dibentuk berdasarkan urutan kemunculan antara 2 buah kata. Feature Weiht Matrix diunakan untuk meunjukkan bobot dari ede. Train in Grap Train in Grap h GKNN Model trainin Train in Grap Trai nin Gambar 5. Skema pembanunan model dari trainin raph Testin Graph Model testin Spam Gambar 6. Skema penklasifikasian data testin dari testin raph 6

3. Learnin Alorithm Tabel 1. Pembaian 5-fold Pada proses ini dilakukan impelemtasi dari aloritma GKNN, hasil raf yan sudah dibanun sebelumnya akan dijadikan model untuk melakukan klasifikasi. Kelompo k Sampel SMS ke- Spa m Penujian Testin Trainin 4. Model Pada proses ini, data testin yan sudah dibentuk menjadi raf akan diproses denan model klasifikasi. Hasil dari proses ini adalah menentukan kelas dari setiap SMS pada data test yaitu spam atau ham (bukan spam).dari hasil penentuan kelas tersebut, akan didapatkan pula akurasi dari model klasifikasi. IV. Penujian Untuk mendapatkan data trainin dan data testin untuk penujian pada tuas akhir ini, diunakan pembaian menunakan teknik k-fold cross validation denan membai data menjadi k baian, dan menkombinasikan hasil pembaian sebaai data trainin dan data testin. Nilai k yan umum diunakan adalah 5 dan 10, pembaian ini dilakukan untuk melihat penaruh jumlah data terhadap hasil penujian. Dari data set yan telah didapatkan yaitu SMSSpamCollection [8 denan rincian total SMS sebanyak 5574 denan SMS spam berjumlah 747 dan SMS ham berjumlah 4827, SMS spam yan dipakai untuk penujian berjumlah 700 dan SMS ham berjumlah 4000.Kemudian dari data tersebut, dibai menjadi data trainin dan data testin sesuai penunaan 5-fold dan 10-fold denan rincian sebaai berikut : A B C D E Kelom pok Sampe l Tabel 2. Pembaian 10-fold SMS ke- Spam Penujian Testin A 1-400 1-70 A B C 1-800 801-1600 1601-2400 2401-3200 3201-4000 401-800 801-1200 1-140 141-280 281-420 421-560 561-700 71-140 B 141-210 A B C D E C BCDE ACDE ABDE ABCE ABCD Trainin BCDEF ACDEF ABDEF D 1201-1600 211-280 D ABCEF 7

E 1601-2000 281-350 E ABCDF F 2001-2400 351-420 F ABCDE Perbandinan Hasil Skenario(5-fold) G H I J 2401-2800 2801-3200 3201-3600 3601-4000 421-490 491-560 561-630 631-700 G H I J ABCDE FHIJ ABCDE FGIJ ABCDE FGHJ ABCDE FGHI 100 97,5 95 92,5 90 87,5 85 82,5 80 77,5 75 Precision Recall Accuracy I II III Skenario untuk penujian pada tuas akhir ini adalah menunakan pembaian data 5-fold dan 10-fold dan menkombinasikannya denan nilai threshold dan Jumlah SMS per Graf untuk melihat penaruh keduanya. Nilai threshold yan diunakan adalah 0.01, 0.025, dan 0.04. Sedankan untuk Jumlah SMS per Graf diunakan nilai 5,8, dan 10 sehina terdapat 9 kombinasi nilai yan diunakan dalam skenario. untuk panjan list yan diunakan dalam diklasifikasi ditentukan oleh nilai K. Nilai K yan diunakan dalam penujian adalah 5. Tabel 3. Nilai Skenario Threshold dan Jumlah SMS per Trainin Graf Threshold Jumlah SMS per Trainin Graf 5 8 10 0.01 I II III 0.025 IV V VI 0.04 VII VIII IX 600 400 200 100 97,5 95 92,5 90 87,5 85 82,5 80 77,5 75 0 Perbandinan Hasil Penukuran Waktu (5-fold) I II III IV V VI VII VIII IX Perbandinan Hasil Skenario (10-fold) Precision Recall Accuracy I II III 8

300 200 100 Perbandinan Hasil Penukuran Waktu (10-fold) pemrosesan tercepat dibandinkan skenario lainnya. 5. Untuk Jumlah data trainin yan diunakan, pada pembaian data 5-fold hampir semua hasil akurasi di setiap skenario yan dilakukan memiliki nilai lebih kecil dibandinkan denan hasil akurasi jika menunakan pembaian data 10-fold. 0 I II III IV V VI VII VIII IX Dari hasil penujian yan dilakukan, maka dapat dikatakan bahwa 1. Untuk Precision, seluruh skenario mendapatkan hasil yan sanat baik yaitu 100%, yan berarti bahwa sistem mendeteksi spam denan sanat baik. 2. Untuk Recall, hasil terbaik didapatkan denan melakukan skenario I yaitu 99,86% baik pada Pembaian data 5-fold maupun pada pembaian data 10-fold. Hasil terburuk didapatkan denan skenario IX yaitu 79,29% pada pembaian data 5-fold dan 80,43% pada pembaian data 10- fold. 3. Untuk Accuracy, rata-rata akurasi pada pembaian data 5-fold mencapai 99,06% dan pada pembaian data 10-fold mencapai 99,16%. Itu berarti sistem sanat baik dalam menentukan SMS spam dan ham. 4. Untuk waktu, skenario I baik pada pembaian data 5-fold maupun 10-fold membutuhkan waktu pemrosesan lebih lama dibandinkan skenario lainnya. Sedankan skenario IX pada pembaian data 5-fold dan 10- fold membutuhkan waktu Dari hasil yan didapatkan,diketahui bahwa aloritma GKNN meman efektif untuk diunakan dalam SMS spam filterin dimana untuk semua skenario, nilai akurasi yan didapatkan mencapai 99,06% untuk pembaian data 5-fold dan 99,16% untuk pembaian data 10-fold. V. Kesimpulan Berdasarkan penujian serta analisis yan telah dilakukan pada tuas akhir ini, dapat diambil beberapa kesimpulan, yaitu : 1. Penerapan aloritma GKNN dilakukan denan membentuk model klasifikasi yan terdiri dari kumpulan Trainin Graf yan merupakan representasi dari data trainin yan sudah melalui tahap preprocessin. 2. Proses klasifikasi SMS dilakukan denan menuji model klasfikasi yan telah dibuat denan data testin yan direpresentasikan ke dalam raf yan membentuk sebuah Testin Graf dan dilakukan pencarian nilai Feature Weiht (FW) untuk menentukan tinkat kesamaan antara Trainin Graf dan Testin Graf. Semakin tini nilai FW, maka semakin tini kemunkinan kedua raf tersebut berada pada satu kateori, yaitu spam atau ham. 3. Nilai threshold dan Jumlah SMS per Trainin Graf mempenaruhi hasil akurasi dan waktu 9

pemrosesan. Semakin kecil nilai threshold dan Jumlah SMS per trainin Graf yan diunakan, maka semakin tini nilai akurasi yan didapatkan, namun membutuhkan waktu pemrosesan yan semakin lama. Sebaliknya, semakin besar nilai threshold dan jumlah SMS per trainin raf yan diunakan, maka semakin rendah nilai akurasi yan didapatkan, namun membutuhkan waktu pemrosesan semakin sedikit. 4. Jumlah data trainin yan diunakan berpenaruh terhadap hasil yan didapatkan. Semakin banyak data trainin yan diunakan, nilai akurasi yan dihasilkan semakin tini. 5. Rata-rata nilai akurasi yan diperoleh dari penujian terhadap aloritma GKNN mencapai 99,06% untuk penujian denan pembaian data 5-fold dan 99,16% untuk penujian denan pembaian data 10-fold, yan artinya SMS spam filter yan dibuat sanat baik dalam melakukan klasifikasi Saran yan dapat diberikan untuk penembanan atau penelitian selanjutnya adalah : Penerapan dapat dilakukan untuk mendeteksi SMS bukan hanya SMS berbahasa inris saja, tetapi dapat dilakukan pada bahasa selain bahasa inris. Daftar Pustaka [1 M. Z. Rafique and M. Abulaish, "Graph-Based Learnin Model for Detection of SMS Spam on Smart Phones". [2 G. V. Cormack and D. R. Cheriton, "Email Spam Filterin: A systematic Review," pp. 355-455, 2006. [3 B. M. Ramaeri, "DATA MINING TECHNIQUES AND APPLICATIONS," Indian Journal of Computer Science and Enineerin, vol. 1, pp. 301-305. [4 T. P. Ho, H.-S. Kan and S.-R. Kim, "Graph-Based KNN Alorithm for Spam SMS Detection," Universal Computer Science, 2013. [5 "Slan Dictionary - Text Slan & Internet Slan Words," NoSlan.com, 2005. [Online. Available: http://www.noslan.com/dictionary/. [Accessed 23 June 2015. [6 "RANKS NL," [Online. Available: http://www.ranks.nl/stopwords. [Accessed 23 June 2015. [7 "Snowball," [Online. Available: http://snowball.tartarus.or/. [Accessed 23 June 2015. [8 UCI, "SMS Spam Collection Set," [Online. Available: https://archive.ics.uci.edu/ml/datasets/ SMS+Spam+Collection. [Accessed 23 June 2015. [9 D. Belem and F. Duarte-Fiueiredo, "Content Filterin for SMS System Based on Bayesian Classifier and 10

Word Groupin," 2011. [10 [11 [12 [13 [14 [15 J. M. G. Hidalo, G. C. Brinas and E. P. Sanz, "Content Based SMS Spam Filterin". S. R. Sinh, H. A. Murthy and T. A. Gonsalves, "Feature Selection for Text Classification Based on Gini Coefficient of Inequality," Workshop and Conference Proceedins 10, pp. 76-85, 2010. Z. Wan and Z. Liu, "Graph-based KNN Text Classification," Seventh International Conference, 2010. T. M. Mahmoud and A. M. Mahfouz, "SMS Spam Filterin Technique Based on Artificial Immune System," IJCSI, 2012. P. Kantor, F. Robert, F.-Y. Wan, G. Muresan, D. D. Zen, H. Chen and R. C. Merkle, Intelleence and Security Informatics, Atlanta: Spriner, 2005. "Collectin SMS Messae for a Public Research Group," National University of Sinapore, 6 September 2014. [Online. Available: http://win.comp.nus.edu.s:8080/sm SCorpus/history.jsp. [Accessed 2 November 2014. 11