MESIN PENCARI SMS BERBASIS ANDROID DENGAN MENGGUNAKAN METODE N-GRAM RIZKY UTAMA PRAMUDIA

Transkripsi

1 MESIN PENCARI SMS BERBASIS ANDROID DENGAN MENGGUNAKAN METODE N-GRAM RIZKY UTAMA PRAMUDIA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

2 MESIN PENCARI SMS BERBASIS ANDROID DENGAN MENGGUNAKAN METODE N-GRAM RIZKY UTAMA PRAMUDIA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

3 ABSTRACT RIZKY UTAMA PRAMUDIA. Search Engine SMS based on Android using N-gram Method. Supervised by JULIO ADISANTOSO. Search engines Short-Messaging Service (SMS) on mobile devices are still using the exact match method. This method can only find SMS containing words, which one exact matches of the query. Therefore, a method to correct the spelling of the text is needed. Trigram similarity measure method is one of spelling correction methods developed which gives a relatively good performance. Therefore, this study applied the method of N-gram with bigram models and trigram models for SMS in Indonesian. The result of this research is a search engine with an average precision (AVP) 49.6% for bigram models and 80.8% for trigram models. Keyword : SMS, N-gram, bigram, trigram, spelling correction, search engine

4 Judul Skripsi Nama NRP : Mesin Pencari SMS berbasis Android dengan Menggunakan Metode N-gram : Rizky Utama Pramudia : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer Dr. Ir. Agus Buono, M.Si, M.Kom NIP Tanggal Lulus :

5 KATA PENGANTAR Puji dan syukur penulis panjatkan kepada Allah subhanahu wata ala yang telah memberikan rahmat dan karunia-nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Mesin Pencari SMS berbasis Android dengan Menggunakan Metode N-gram. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam tugas akhir ini, yaitu: Ayahanda H.Safrudin, Ibunda Fitriana Wulandari, serta keluarga besar penulis yang selalu memberikan doa, nasihat, semangat, dan kasih sayang yang luar biasa kepada penulis. Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang memberikan bimbingan, ide, dukungan, semangat serta kesabaran dalam pengerjaan tugas akhir ini. Bapak Ahmad Ridha, S.Kom, MS dan Bapak Sony H. Wijaya, S.Kom, M.Kom selaku dosen penguji yang telah memberi masukan dan saran pada tugas akhir penulis. Rekan satu bimbingan Susi Handayani, Fania R K, Meri Marlina, Meriska Defriani, Anita, Hafidzhia Dzikrul A, Alfa Nugraha, Putri Dewi Purnama Sari, dan Nofel Saputra. Terima kasih atas bantuan, kebersamaan dan semangatnya dalam menyelesaikan tugas akhir ini. Tri Lugina Kusumaningtias, Anjar Hafidhun, Satria Wardana, Rian Senja dan Aida Ratna Juwita. Terima kasih atas semangat dan dukungannya yang telah diberikan kepada penulis. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses. Seluruh keluarga besar PONDOK AA (Uda Roni, Bang Aad, Bang Aan, Bang Bono, Wido, Rilan, dan rekan-rekan lain) yang selalu memberikan semangat kepada penulis selama melaksanakan tugas akhir ini. Seluruh rekan-rekan Ilmu Komputer angkatan 45 atas segala kebersamaan, bantuan, canda tawa, dan kenangan indah serta semangat bagi penulis slama masa studi. Semoga kita semua bisa berjumpa kembali kelak sebagai orang-orang sukses. Penulis berharap tugas akhir ini dapat memberikan manfaat, khususnya bagi bidang temu kembali informasi. Penulis menyadari bahwa dalam penulisan tugas akhir ini masih terdapat kekurangan dalam berbagai hal. Penulis berharap adanya masukan yang bersifat membangun dari pembaca demi kesempurnaan tugas akhir ini. Bogor, Januari 2013 Rizky Utama Pramudia

6 RIWAYAT HIDUP Rizky Utama Pramudia dilahirkan di Jakarta pada tanggal 19 September 1990 dari pasangan Bapak H Safrudin dan Ibu Fitriana Wulandari. Pada tahun 2008, penulis lulus dari SMA Negeri 106 Jakarta dan menjadi mahasiswa di Departemen Ilmu Komputer Institut Pertanian Bogor (IPB) melalui Undangan Seleksi Masuk IPB (USMI). Selama menjadi mahasiswa, penulis menjadi asisten praktikum mata kuliah Komputer Grafik pada tahun Pada bulan Juli hingga Agustus 2011, penulis melaksanakan Praktik Kerja Lapangan di Bank Indonesia, Jakarta.

7 DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... vi DAFTAR LAMPIRAN... vi PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 Praproses Dokumen... 2 Pemrosesan Kueri... 2 Pemeringkatan Dokumen... 2 Evaluasi Sistem... 2 Lingkungan Implementasi... 3 HASIL DAN PEMBAHASAN... 3 Dokumen Pengujian... 3 Pemrosesan dokumen... 3 Pemrosesan Kueri... 4 Ukuran Kesamaan... 4 Pengujian Kinerja Sistem... 4 Pengembangan Sistem... 7 SIMPULAN DAN SARAN... 7 Simpulan... 7 Saran... 7 DAFTAR PUSTAKA... 7 LAMPIRAN... 9 v

8 DAFTAR TABEL Halaman 1 Relevant dan retrieved dokumen Contoh daftar hasil pencarian untuk kueri Q Contoh hasil keluaran sistem trec_eval trigram Perbandingan nilai AVP sepuluh kueri pada sistem... 6 DAFTAR GAMBAR Halaman 1 Tahapan pembangunan sistem Format dokumen uji SMS (.xml) Grafik recall precision bigram dan trigram dengan threshold Grafik recall precision bigram dan trigram dengan threshold Grafik recall precision bigram dan trigram dengan threshold DAFTAR LAMPIRAN Halaman 1 Daftar kueri uji dan dokumen yang relevan Contoh dokumen SMS pengujian Hasil keluaran sistem trec_eval bigram Hasil keluaran sistem trec_eval trigram Hasil keluaran sistem trec_eval bigram Hasil keluaran sistem trec_eval trigram Hasil keluaran sistem trec_eval bigram Daftar AVP pada pengujian model bigram dengan threshold Daftar AVP pada pengujian model trigram dengan threshold Daftar AVP pada pengujian model bigram dengan threshold Daftar AVP pada pengujian model trigram dengan threshold Daftar AVP pada pengujian model bigram dengan threshold Daftar AVP pada pengujian model trigram dengan threshold Antarmuka halaman utama sistem pencarian SMS Antarmuka hasil pencarian Antarmuka read SMS Antarmuka reply SMS Antarmuka forward SMS vi

9 1 Latar Belakang PENDAHULUAN Sistem temu kembali informasi sangat erat kaitannya dengan sistem pencarian (search engine). Sistem pencarian membutuhkan masukan berupa kueri untuk memperoleh suatu informasi yang diinginkan. Kadangkala, informasi yang ditemukembalikan kurang relevan dengan kebutuhan pengguna (Rahmawan 2011). Saat ini pengembangan sistem pencarian short message service (SMS) menggunakan perangkat mobile belum banyak dikembangkan. Sistem pencarian SMS yang terdapat pada perangkat mobile saat ini masih menggunakan metode exact match. Sistem pencarian SMS menggunakan metode exact match telah diterapkan pada perangkat mobile berbasis Android. Android adalah sistem operasi untuk perangkat mobile yang berbasis Linux. Android menyediakan platform terbuka bagi para pengembang untuk menciptakan aplikasi mereka sendiri untuk digunakan oleh bermacam perangkat mobile yang berbasis Android. Sistem pencarian SMS pada Android hanya bisa mencari SMS dengan kueri yang tepat sama dengan kata yang ada pada SMS. Sistem ini tidak bisa mengatasi bila pengguna salah ejaan kata pada saat memasukkan kueri. Berbagai metode telah dikembangkan untuk program pengoreksi ejaan berbahasa Inggris dan hasilnya cukup memuaskan. Untuk Bahasa Indonesia, metode tersebut masih merupakan bahan kajian yang harus diteliti dan dikembangkan lebih lanjut terutama pada dokumen berbentuk SMS (Wahyudin 1999). Menurut Damerau (1964) dalam Peterson (1980) 80% kesalahan ejaan merupakan variasi dari empat hal, yaitu penggantian satu huruf, penyisipan satu huruf, penghilangan satu huruf, dan transposisi dua huruf berdekatan. Algoritme ukuran kesamaan trigram adalah salah satu metode pengoreksi ejaan yang dikembangkan oleh Angell et al. (1983) di Inggris yang memberikan kinerja cukup baik, yaitu antara 75%-90% koreksi kesalahan ejaan dengan kamus sebanyak kata. Algoritme ini digunakan untuk mengukur kesamaan dua string yang tidak tepat sama. Pada kenyataannya, SMS sering ditulis dengan tidak benar sehingga sulit dicari dengan metode kesamaan string tepat sama. Oleh karena itu, pada penelitian ini akan dikembangkan sistem pencarian SMS berbasis Android menggunakan metode N-gram sehingga sistem diharapkan dapat mencari SMS menggunakan kueri yang tidak tepat sama. Tujuan Tujuan dari penelitian ini adalah: 1 Mengimplementasikan sistem mesin pencari SMS berbasis Android. 2 Menganalisis kinerja sistem yang akan dibangun dengan mengembalikan dokumen SMS yang relevan dari banyak dokumen SMS yang tidak hanya menggunakan bahasa baku. Ruang Lingkup Ruang lingkup dalam penelitian ini adalah: 1 Dokumen yang digunakan dalam penelitian adalah dokumen SMS berbahasa Indonesia. 2 Dokumen yang relevan dengan kueri uji, ditentukan berdasarkan penulis. METODE Penelitian ini dilaksanakan dalam beberapa tahapan, yaitu: pengumpulan koleksi dokumen SMS, perhitungan metode N-gram, perhitungan ukuran kesamaan antara dokumen dan kueri, pemeringkatan dokumen, dan perhitungan evaluasi hasil temu-kembali sistem. Tahapan-tahapan tersebut dapat dilihat pada Gambar 1. Gambar 1 Tahapan pembangunan sistem.

10 2 Koleksi Dokumen Dokumen yang digunakan sebagai dokumen uji adalah dokumen SMS yang berasal dari penulis. Dokumen berjumlah 661 SMS inbox dan sent item dan kueri uji berjumlah 10 kueri dengan daftar dokumen yang relevan (Lampiran 1). Praproses Dokumen Tahapan penelitian dimulai dengan melakukan pembersihan data terhadap dokumen SMS di dalam sebuah kumpulan SMS. Terdapat dua tahapan praproses yang digunakan pada penelitian. Tahapan pertama adalah pembersihan data. Pembersihan data adalah suatu proses pembuangan separator yang dianggap kurang representatif dalam proses selanjutnya. Hal ini dilakukan dengan cara menghapus semua karakter tanda baca yang terdapat pada dokumen SMS dan mengubah semua huruf menjadi lowercase. Penelitian ini tidak menggunakan pembobotan melainkan dokumen SMS yang sudah dilakukan pembersihan data diproses menggunakan metode N-gram. Tahapan yang kedua yaitu proses N-gram. N-gram (Markov Chain) adalah rangkaian karakter (alfabet) atau kata yang diekstrak dari sebuah teks. N-gram dapat dibedakan menjadi dua kategori, yaitu basis karakter dan basis kata. Sebuah karakter N-gram merupakan rangkaian dari n karakter yang berurutan. Tujuan utama pendekatan ini adalah menentukan kata-kata yang mirip dengan rangkaian N-gram secara umum (Majumder et al 2002). Pada umumnya N-gram mengekstrak dokumen atau kata-kata menjadi dua atau tiga rangkaian yang terurut (sering disebut bigrams dan trigrams). Sebagai contoh susunan bigrams dari kata computer adalah CO, OM, MP, PU, UT, TE, dan ER. Pemrosesan Kueri Pemrosesan pada tahap ini sama halnya dengan praproses dokumen SMS, yaitu dilakukan tokenisasi, pembuangan tanda baca, dan spasi terhadap kueri. Kueri yang dimasukkan akan dilakukan proses dengan metode N-gram yang kemudian akan diperoleh array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Pemeringkatan Dokumen Hasil pemrosesan dengan metode N-gram yang diperoleh dari dokumen SMS dan kueri kemudian diperiksa kesamaan dokumennya menggunakan ukuran kesamaan Dice. Nilai pengukuran kesamaan pada sistem akan mengembalikan dokumen relevan menurut sistem. Persamaan (1) menunjukkan proses penghitungan ukuran kesamaan dari N-gram dengan metode dice coefficient dari dua buah kata. 2 x X Y Dice =.. (1) X + Y dengan X adalah string dari N-gram X dan Y adalah string dari N-gram Y. Semakin tinggi nilai kesamaan dice menunjukkan bahwa dokumen tersebut memiliki tingkat kemiripan yang besar dengan kueri yang diberikan. Ukuran lain yang bisa digunakan untuk menghitung ukuran kesamaan adalah jaccard coefficient. Jaccard coefficient dari dua buah kata adalah: Jaccard = X Y... (2) X Y Dalam penelitian ini digunakan ukuran kesamaan dice coefficient untuk mengukur kesamaan dua string hasil N-gram. Evaluasi Sistem Pada proses evaluasi hasil temu-kembali dilakukan menggunakan ukuran recallprecision untuk menentukan tingkat keefektifan proses temu-kembali. Dua ukuran utama untuk keefektifan penemukembalian yang telah digunakan sejak lama adalah recall dan precision (Salton 1989). Recall adalah perbandingan jumlah dokumen relevan yang ditemukembalikan terhadap jumlah dokumen yang relevan, sedangkan precision adalah perbandingan jumlah dokumen relevan yang ditemukembalikan terhadap jumlah dokumen yang ditemukembalikan. Berdasarkan Tabel 1, recall (R) dan precision (P) dapat dinyatakan sebagai persamaan sebagai berikut: P = tp tp+fp dan R = tp tp+fn (3) Average precision (AVP) dihitung pada 11 standard recall levels, yaitu 0%, 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90%, 100% dengan menggunakan interpolasi maksimum (Baeza-Yates & Ribeiro-Neto 1999).

11 3 Tabel 1 Relevant dan retrieved dokumen Retrieved Non retrieved Relevant True positive (tp) False negative (fn) Lingkungan Implementasi Non relevant False positive (fp) True negative (tn) Lingkungan implementasi yang digunakan adalah sebagai berikut: 1 Perangkat lunak: a Sistem operasi Windows 8 Professional sebagai sistem operasi, b Java rule-based Android sebagai bahasa pemrograman c Android SDK Windows, d Eclipse IDE e Trec_eval, dan f Microsoft Office 2007 sebagai aplikasi yang digunakan untuk melakukan perhitungan dalam evaluasi sistem. 2 Perangkat keras: a Processor Intel Core i GHz b RAM 4 GB c Harddisk dengankapasitas 500 GB HASIL DAN PEMBAHASAN Dokumen Pengujian Penelitian ini menggunakan 661 dokumen SMS yang berasal dari SMS penulis yang terbagi menjadi 394 dokumen SMS inbox dan 267 dokumen SMS sent item. Dokumen SMS yang digunakan berformat XML yang diexport dari perangkat mobile. Dokumen tersebut di-import ke dalam emulator Android agar bisa digunakan dalam implementasi sistem dengan menggunakan aplikasi pendukung di Android. Contoh format dokumen uji yang digunakan dapat dilihat pada Gambar 2. Koleksi ini dibuat sesuai struktur tag XML pada masing-masing dokumen. Tag XML yang digunakan dalam koleksi dokumen pertanian, yaitu: <SMSes/></SMSes>, mewakili jumlah dokumen SMS yang berhasil di-export. <SMS></SMS>, mewakili keseluruhan dokumen. Di dalamnya terdapat attribute lain yang mendeskripsikan isi dokumen secara lebih jelas. Jumlah kueri uji yang akan digunakan dalam penelitian ini adalah 10 kueri uji dokumen SMS yang berasal penulis (Lampiran 1). <? xmlversion='1.0 'encoding='utf-8' standalone='yes'?> <?xml-stylesheet type="text/xsl" href="sms.xsl"?> <SMSes count="1028"> <SMS protocol="0" address=" " date=" " type="1" subject="null" body="ki, pinjemin kalkulator dong, gw lupa ih" toa="null" sc_toa="null" service_center=" " read="1" status="-1" locked="0" date_sent="null" readable_date="oct 17, :04:18 AM" contact_name="laras_ilkom" /><SMSes> Gambar 2 Format dokumen uji SMS (.xml). Pemrosesan dokumen Pemrosesan dokumen dilakukan melalui beberapa tahapan, yaitu pembersihan data dan proses N-gram. Tahap normalisasi dilakukan dengan pembacaan karakter per karakter. Tujuannya untuk membedakan karakterkarakter yang bersifat separator. Separator yang dihilangkan yaitu: karakter pemisah indeks istilah (whitespace), karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representasif dalam mencirikan suatu dokumen. Dalam hal ini pembuangan spasi, karakter angka, titik, koma, dan karakter lainnya yang dianggap kurang representatif bertujuan untuk menaikkan nilai ukuran kesamaan. Karena jika karakter tersebut tidak dihilangkan maka akan menambah panjang string dari proses N- gram yang menyebabkan turunnya nilai ukuran kesamaan yang berdampak juga pada turunnya kinerja sistem. Karena semakin panjang string yang dihasilkan dari proses N- gram, nilai dari ukuran kesamaan antara kueri dan dokumen SMS juga semakin kecil. Hal ini disebakkan oleh rumus ukuran kesamaan dice coefficient yang membagi banyaknya karakter yang sama dari dua string N-gram dengan penjumlahan dari panjang dua string tersebut. Setelah dilakukan pembersihan data tahap selanjutnya adalah proses N-gram. Untuk semua SMS yang telah telah melewati proses pembersihan data akan dilakuakan proses N- gram yang pada penelitian kali ini menggunakan model bigram dan trigram.

12 4 Hasil dari proses N-gram tersebut menjadi kumpulan array SMS dari setiap dokumen SMS. Pemrosesan Kueri Pemrosesan pada tahap ini sama halnya dengan pemrosesan dokumen SMS, yaitu kueri dilakukan normalisasi, pembuangan tanda baca, dan spasi. Kueri yang dimasukkan akan dilakukan proses dengan metode N-gram yang akan menghasilkan array kueri yang dapat digunakan dalam proses perhitungan ukuran kesamaan. Ukuran Kesamaan Hasil proses N-gram dokumen digunakan untuk menghitung kemiripan kueri dengan dokumen. Kemiripan yang digunakan untuk menghitung bobot antara dokumen dan kueri adalah dice coefficient. Hasil dari similarity akan diurutkan berdasarkan dokumen yang memunyai kemiripan terbesar sampai terkecil. Pengujian Kinerja Sistem Proses evaluasi dalam penelitian ini dilakukan pada 661 koleksi dokumen SMS. Proses evaluasi pada koleksi dokumen SMS menggunakan 10 kueri uji yang berasal dari penulis. Pencarian dengan kueri uji ini dilakukan dengan melakukan pengukuran recallprecision dari sistem. Recall adalah rasio dokumen relevan yang ditemukembalikan dan precision adalah dokumen relevan yang ditemukembalikan. Perhitungan recall dan precision menggunakan persamaan (3). Hasil dari evaluasi recall precision masing-masing kueri diinterpolasi maksimum untuk mencari nilai average precision (AVP) dan digambarkan dalam bentuk grafik serta tabel. Proses perhitungan recall dan precision pada penelitian ini menggunakan aplikasi - trec_eval. Trec_eval adalah aplikasi standar yang digunakan oleh Text Retrieval Conference (TREC) untuk menguji kinerja suatu sisem temukembali informasi (Manning et al. 2008). Aplikasi trec_eval sendiri hanya dapat dijalankan pada sistem operasi Linux dengan menggunakan perintah di command line. Untuk menggunakannya, perlu disediakan daftar kueri serta dokumen yang seharusnya relevan dan daftar hasil cari dari sistem. Contoh daftar hasil pencarian dari sistem dapat dilihat pada Tabel 2. Pada Tabel 3 dapat dilihat hasil uji kinerja sistem temu kembali informasi pada model trigram dengan nilai threshold 0.1 dan hasil uji lainnya dapat dilihat pada Lampiran 3, 4, 5, 6, dan 7. Pada program trec_eval perhitungan nilai interpolasi menggunakan rumus interpolasi maksimum. Hasil keluaran program trec_eval nilai-nilai dari interpolasi, yaitu: 1 Num_q, menunjukkan jumlah kueri yang di uji pada program trec_eval. 2 Num_ret, menunjukkan jumlah dokumen yang berhasil di-retrieve oleh program trec_eval. 3 Num_rel, menunjukkan jumlah kueri yang relevance. 4 Num_rel_ret, menunjukan banyak dokumen relevance yang berhasil diretrieve. 5 Map, menunjukkan nilai dari Mean Average Precision dari sistem. 6 Gm_ap, menunjukkan nilai dari Average_Precision. 7 R-prec, menunjukkan nilai dari R- precision. 8 Bpref, menunjukkan nilai dari Binary Preferance. 9 Recip_rank, menunjukkan nilai Recipricial Rank pada dokumen yang relevance. 10 Ircl_prn, menunjukkan nilai interpolasi dari 11 standar nilai recall dari sistem yang diuji. Nilai-nilai ircl_prn tersebut adalah nilai yang digunakan untuk membuat kurva recal precision untuk membandingkan antara model bigram dengan model trigram. Pada tahap evaluasi penelitian ini, dilakukan beberapa perbandingan hasil temu kembali pada kueri uji, yaitu perbandingan proses N-gram antara model bigram dengan model trigram dan menggunakan tiga nilai threshold yaitu 0.1, 0.05, dan 0.0. Pada penelitian ini, dapat dikatakan hasil proses model trigram lebih tinggi dari model bigram. Perbandingan nilai AVP dari proses bigram dengan trigram dapat dilihat dari grafik pada Gambar 3, 4, dan 5

13 Precision 5 Tabel 2 Contoh daftar hasil pencarian untuk kueri Q1 Qid Docno Similarity Q1 Dok Q1 Dok Q1 Dok Q1 Dok Q1 Dok Q1 Dok Q1 Dok Q1 Dok Q1 Dok Pada Gambar 3 dapat dilihat metode trigram lebih baik dari bigram pada nilai threshold 0.1. metode trigram dapat meningkatkan nilai precision pada titik recall kemudian jatuh pada titik recall selanjutnya. Hal tersebut tidak terjadi pada metode bigram yang hanya mampu meningkatkan nilai precision pada titik recall yang kemudiam jatuh pada titik recall selanjutnya. Pada Gambar 4, dengan nilai threshold 0.05, kedua metode menghasilkan grafik yang lebih baik dari grafik sebelumya. Penurunan nilai precision kedua metode tersebut tidak setajam pada grafik dengan threshold 0.1 walaupun hanya dapat meningkatkan nilai precision pada titik recall rendah. Tabel 3 Contoh hasil keluaran sistem trec_eval trigram 0.1 Variabel output num_q num_ret num_rel num_rel_ret map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00 Nilai Interpolasi Pada Gambar 5 grafik dengan nilai threshold 0.0 menghasilkan hasil lebih baik untuk metode trigram bila dibandingkan dengan dua grafik recall-precision sebelumnya. Pada metode trigram dapat dilihat bahwa dengan nilai threshold 0.0 dapat meningkatkan nilai precision yang stabil sampai titik recall tertinggi. Meskipun terdapat penurunan, penurunan tersebut tidak terlalu signifikan. Pada metode bigram menghasilkan nilai yang sedikit menurun. Hal tersebut disebabkan oleh penurunan nilai precision pada titik recall 0.8 bila dibandingkan dengan grafik pada Gambar BIGRAM TRIGRAM Recall Gambar 3 Grafik recall precision bigram dan trigram dengan threshold 0.1.

14 Precision Precision BIGRAM TRIGRAM Recall Gambar 4 Grafik recall precision bigram dan trigram dengan threshold BIGRAM TRIGRAM Recall Gambar 5 Grafik recall precision bigram dan trigram dengan threshold 0.0. Tabel 4 Perbandingan nilai AVP sepuluh kueri pada sistem Kueri Bigram 0.1 Trigram 0.1 Bigram 0.05 Trigram 0.05 Bigram 0.0 Trigram 0.0 Jarkom Kripto Ppcd Analgor Basket Tki Makrab Transfer Kosan Kolokium Average precision (AVP)

15 7 Berdasarkan Tabel 4 model trigram memiliki hasil pencarian lebih baik dari model bigram pada setiap nilai threshold. Namun terdapat kueri dari model bigram yang memiliki nilai AVP lebih baik dari model trigram pada nilai threshold 0.1. Kueri tersebut adalah kripto. Hal tersebut disebabkan oleh jumlah elemen dari array yang dibentuk oleh model bigram dan trigram pada dokumen SMS dari kueri tersebut sedikit. Jumlah elemen array yang sedikit berakibat pada pula hasil perhitungan ukuran kesamaan dice coefficient yang melihat jumlah elemen array yang sama antara dokumen SMS dan kueri. Selain itu panjang array SMS dan kueri juga sangat mempengaruhi karena jumlah elemen array yang sama antar SMS dan kueri akan dibagi dengan panjang array SMS dan kueri. Semakin sedikit jumlah elemen array yang sama dan panjang array SMS dan kueri semakin panjang maka ukuran kesamaan yang dihasilkan semakin kecil. Penggunaan nilai threshold yang berbeda juga berpengaruh terhadap kinerja sistem. Hal tersebut disebabkan karena nilai threshold yang semakin kecil akan menampilkan hasil pencarian yang lebih banyak dimana terdapat beberapa dokumen yang relevan yang memiliki nilai kecil mendekati 0.0 yang disebabkan oleh panjang dokumen SMS. Hal ini menyebabkan kinerja sistem menurun pada nilai threshold yang semakin besar. Pengembangan Sistem Pada tahap pengembangan sistem ini, seluruh tahapan dari mulai normalisasi, proses N-gram, perhitungan dice coefficient, dan pemeringkatan dokumen diadopsi dan diimplementasikan menggunakan bahasa pemrograman Android. Dalam implementasinya, sistem ini tidak hanya mampu mencari SMS sesuai dengan kueri yang diberikan, namun juga terdapat beberapa fitur tambahan, yaitu: 1 Read, pengguna dapat melihat isi dari SMS dari hasil pencarian secara keseluruhan dengan menekan layar pada device yang terkait dengan SMS yang ingin dilihat. Sistem akan mengeluarkan tampilan dialog box yang berisi isi SMS tersebut yang terlihat pada Lampiran Reply & forward SMS, setelah melihat isi SMS secara keseluruhan, pengguna juga dapat membalas atau meneruskan SMS tersebut. Dengan menekan tombol reply atau forwad yang ada pada dialog box seperti pada Lampiran 12 dan Lampiran Send SMS, pengguna dapat mengirim SMS setelah membalas atau meneruskan isi SMS dengan menekan tombol send pada dialog box. Simpulan SIMPULAN DAN SARAN Berdasarkan penelitian yang telah dilakukan, dapat disimpulkan bahwa sistem mesin pencari SMS berhasil menerapkan metode N-gram yang menggunakan model bigram dan trigram. Akurasi hasil model trigram lebih besar dibanding model bigram untuk 661 dokumen SMS yang terbagi menjadi 364 dokumen SMS inbox dan 297 dokumen SMS sent item, dengan model bigram 49.6% dan model trigram 80.8%. Saran Pada peneletian ini belum menggunakan indexing pada kueri dan dokumen SMS dan hanya menggunakan metode N-gram dan ukuran kesamaan dice coefficient, maka pada penelitian selanjutnya disarankan : 1 Menggunakan metode ukuran kesamaan yang lain seperti soundex atau Dameraulevenstein-Metric serta ukuran kesamaan jaccard coefficient untuk melihat berbagai perbandingan dari metode ukuran kesamaan pada sistem pencarian SMS. 2 Diharapkan adanya proses indexing dan penggunaan stopword serta pemakaian karakter spasi, koma, titik, dan karakter lainnya yang pada penelitian ini dianggap kurang representatif untuk melihat perbandingan kinerja sistem dari penelitian sebelumnya. DAFTAR PUSTAKA Angell RC, Freund GE, Willett P Automatic spelling correction using a trigram similarity Measure. Information Processing & Management.19(4): Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. New York: Addison Wesley. Damerau FJ A Technique for Computer Detection and Correction of

16 8 Spelling Errors. Communications of the ACM. 7: Majumder P, Mitra M, Chaudhuri BB N-gram: A Language Indpendent Approach to IR and NLP. International Conference on Universal Knowledge and Language (ICUKL). 1:1-7. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge: Cambridge University Press Peterson JL Computer program for detecting and correcting spelling erorrs. Communications of the ACM. 23: Rahmawan F Implementasi Question Answering System pada dokumen bahasa Indonesia menggunakan metode N-gram. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Salton G Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Boston: Addison-Wesley. Wahyudin A Algoritme trigram untuk mengoreksi ejaan. [Skripsi]. Bogor: Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor.

17 LAMPIRAN 9

18 10 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji Jarkom Kripto Ppcd Analgor Basket Tki Makrab Transfer Kosan Kolokium Dokumen Relevan dok52, dok55, dok81, dok90, dok96, dok172, dok208, dok239,dok243,dok247, dok291, dok292, dok297, dok303, dok325, dok347, dok384, dok387, dok388,dok391, dok399, dok404,dok408, dok437, dok463, dok467, dok504,dok505, dok520, dok549, dok 659 dok52,dok55,dok69,dok70,dok238,dok242,dok243,dok244,dok292,dok336,dok34 7,dok384,dok399,dok400,dok482,dok517,dok518,dok520,dok528 dok102,dok123,dok129,dok142,dok225,dok325,dok370,dok391,dok482,dok494 dok3,dok4,dok7,dok206,dok208,dok386,dok481,dok482,dok493,dok504 dok53,dok54,dok93,dok94,dok297,dok304,dok348,dok357,dok358,dok378,dok37 9,dok381,dok467,dok547,dok549 dok3,dok4,dok172,dok289,dok298,dok299,dok326,dok482,dok496,dok511,dok51 2,dok567,dok578,dok608,dok620,dok626 dok36,dok208,dok228,dok259,dok265,dok267,dok280 dok74,dok82,dok83,dok131,dok137,dok176,dok183,dok185,dok286,dok288,dok2 90,dok472,dok486,dok538,dok555 dok19,dok20,dok27,dok30,dok66,dok68,dok87,dok88,dok114,dok187,dok236,dok 237,dok257,dok279,dok339,dok344,dok353,dok374,dok389,dok410,dok414,dok4 16,dok447,dok450,dok462,dok506,dok554,dok576,dok605,dok606,dok609,dok62 1,dok623,dok639,dok640 dok333,dok334,dok395,dok479,dok513,dok531,dok543,dok564,dok565,dok571,d ok580,dok589,dok590,dok591,dok596,dok630,dok642

19 11 Lampiran 2 Contoh dokumen SMS pengujian <SMSes count="661"> <SMS protocol="0" address=" " date=" " type="2" subject="null" body="iyah dah prnah baca gw,,bisa klo ada ios nya mah hahaha" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" /> <SMS protocol="0" address=" " date=" " type="1" subject="null" body="kagak bisa ngoding di ipad kiiiii huwaaaa" toa="null" sc_toa="null" service_center=" " read="1" status="-1" locked="0" date_sent="null" /> <SMS protocol="0" address=" " date=" " type="2" subject="null" body="gadein ipad lw buat beli macbook lalalalala" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" /> <SMS protocol="0" address=" " date=" " type="1" subject="null" body="aaaaaaak" toa="null" sc_toa="null" service_center=" " read="1" status="-1" locked="0" date_sent="null" /> <SMS protocol="0" address=" " date=" " type="2" subject="null" body="lw SMS apa mank ras?" toa="null" sc_toa="null" service_center="null" read="1" status="0" locked="0" date_sent="null" /> </SMSes>

20 12 Lampiran 3 Hasil keluaran sistem trec_eval bigram 0.1 Variabel output num_q num_ret num_rel num_rel_ret map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00 Nilai Interpolasi

21 13 Lampiran 4 Hasil keluaran sistem trec_eval trigram 0.05 Variabel output num_q num_ret num_rel num_rel_ret map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00 Nilai Interpolasi

23 15 Lampiran 6 Hasil keluaran sistem trec_eval trigram 0.0 Variabel output num_q num_ret num_rel num_rel_ret map gm_ap R-prec bpref recip_rank ircl_prn.0.00 ircl_prn.0.10 ircl_prn.0.20 ircl_prn.0.30 ircl_prn.0.40 ircl_prn.0.50 ircl_prn.0.60 ircl_prn.0.70 ircl_prn.0.80 ircl_prn.0.90 ircl_prn.1.00 Nilai Interpolasi

25 17 Lampiran 8 Daftar AVP pada pengujian model bigram dengan threshold 0.1 Kueri Uji Titik Recall Jarkom Kripto Ppcd Analgor Basket Tki Makrab Transfer Kosan Kolokium Rata-rata interpolasi maksimum AVP 0.471

26 18 Lampiran 9 Daftar AVP pada pengujian model trigram dengan threshold 0.1 Kueri Uji Titik Recall Jarkom Kripto Ppcd Analgor Basket Tki Makrab Transfer Kosan Kolokium Rata-rata interpolasi maksimum AVP 0.581

31 23 Lampiran 14 Antarmuka halaman utama sistem pencarian SMS Lampiran 16 Antarmuka read SMS Lampiran 15 Antarmuka hasil pencarian Lampiran 17 Antarmuka reply SMS

32 Lampiran 18 Antarmuka forward SMS 24