DAFTAR ISI. Halaman Judul. Halaman Pengesahan. Halaman Pernyataan. Halaman Persembahan. Halaman Motto DAFTAR TABEL DAFTAR GAMBAR ABSTRACT

Transkripsi

1 DAFTAR ISI Halaman Judul Halaman Pengesahan Halaman Pernyataan Halaman Persembahan Halaman Motto PRAKATA DAFTAR ISI DAFTAR TABEL DAFTAR GAMBAR INTISARI ABSTRACT ii iii iv v vi vii viii xi xii xiv xv I PENDAHULUAN Latar Belakang Masalah Perumusan Masalah Batasan Masalah Tujuan Penelitian Manfaat Penelitian Keaslian Penelitian Metodologi Penelitian Pengumpulan data Pra pengolahan data Ekstraksi ciri Pengelompokan Penentuan label dan pembuatan hirarki Uji coba viii

2 ix 1.8 Sistematika Penulisan II TINJAUAN PUSTAKA 8 III DASAR TEORI Stemming Stemming bahasa Indonesia Vector Space Model Pembobotan kata Latent Semantic Indexing Singular value decomposition Suffix Array Contoh suffix array Evaluasi pengelompokan hasil pencarian IV ANALISIS DAN RANCANGAN SISTEM Gambaran Sistem Analisis Kebutuhan Sistem Analisis Masukan Analisis Keluaran Rancangan Arsitektur Sistem Pengumpulan data Rancangan Algoritma Pra pengolahan data Ekstraksi ciri Identifikasi dan pembuatan kelompok Penentuan label dan hirarki Rancangan Diagram Alir Data untuk Implementasi Aplikasi Diagram kontek Diagram alir data level Rancangan Antarmuka untuk Implementasi Aplikasi Rancangan halaman pencarian Rancangan halaman hasil pencarian V IMPLEMENTASI Implementasi Sistem

3 x 5.2 Implementasi Pengumpulan Data Implementasi Pra Pengolahan Data Fungsi stemming Ekstraksi Ciri Pengelompokan Pembuatan Hirarki VI HASIL PENELITIAN DAN PEMBAHASAN Pengujian Sistem Pengujian proses pengumpulan data Pengujian proses stemming Pengujian proses mendapatkan frase Analisis Pengujian Pengelompokan Pengujian parameter q Pengujian parameter t Analisis pemilihan label terhadap anggota kelompok Analisis pembuatan hirarki kelompok Kelebihan dan Kekurangan Sistem VIIKESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA 73

4 DAFTAR TABEL 2.1 Ringkasan beberapa penelitian sebelumnya dan penelitian yang akan dikerjakan Kombinasi awalan akhiran yang tidak diijinkan Cara menentukan tipe awalan untuk kata yang diawali dengan "te-" Jenis awalan berdasarkan tipe awalannya Aturan untuk inflectional particle Aturan untuk inflectional possesive pronoun Aturan untuk first order derivational prefix Aturan untuk second order derivational prefix Aturan untuk derivational suffix Tahapan pembuangan imbuhan Contoh hasil stemming Pengujian parameter q untuk menghitung k Pengujian parameter t untuk melihat kualitas pengelompokan Pengujian parameter t dengan data judul dan isi Label dan kelompoknya Pengujian parameter t1 dan parameter t2 pada fungsi hirarki xi

5 DAFTAR GAMBAR 3.1 Proses stemming algoritma Porter bahasa Indonesia (Tala, 2004) Contoh text dan indeknya Hubungan nilai indek dan akhiran Arsitektur sistem Pseudo-code algoritma pengelompokan Diagram alir pra pengolahan data Pseudo-code ringkasan tahap ekstraksi ciri Diagram alir penemuan frase Diagram alir pembuatan matrik kata-dokumen dan dekomposisi nilai singular Diagram alir menghitung jumlah kelompok Diagram alir penentuan kelompok dan label Pseudo-code penentuan hirarki Pseudo-code penggabungan dua kelompok Diagram kontek Diagram alir data level Rancangan halaman pencarian Rancangan halaman hasil pencarian Contoh query untuk Fungsi parse untuk text filtering dan stemming Fungsi buang imbuhan Fungsi buang akhiran Fungsi buang awalan Fungsi buang luluh Fungsi mendapatkan frase Fungsi membuat kumpulan frase Fungsi hitung SVD dan jumlah kelompok Fungsi menampilkan hasil pengelompokan Fungsi membuat hirarki xii

6 xiii 6.1 Pengujian parameter q untuk menghitung k dengan jumlah dokumen bervariasi

7 INTISARI PENGELOMPOKAN SURAT ELEKTRONIK SECARA SEMANTIK, HIRARKI DAN LANGSUNG PADA BASIS DATA ARSIP Oleh M. Zudha Ghofur 08/279229/PPA/2770 Untuk mengelola surat elektronik ( ) yang tersimpan, saat ini diperlukan suatu aturan yang dibuat secara manual untuk menyaring/mengkategorikan sesuai yang dikehendaki. Sedangkan untuk menemukan kembali yang telah disimpan, dapat digunakan fitur pencarian. Hasil pencarian yang ada pada client saat ini hanyalah berupa daftar secara rata. Untuk memudahkan pengguna mencari yang relevan dengan mudah dan cepat, diperlukan cara untuk mengelompokkan ke dalam suatu label/kategori yang relevan. Pengelompokan tidak hanya berdasarkan kata saja tetapi juga berupa semantik/frase, dan juga bisa disajikan secara hirarki dan dikelompokkan secara langsung. Penelitian dilakukan mulai dari pengumpulan data yang disimpan sebagai basis data arsip , kemudian dilakukan pra pengolahan data yang terdiri dari stoping dan stemming. Tahap selanjutnya yaitu ekstraksi ciri, di sini digunakan frase kunci yang diekstraksi dari kumpulan sebagai ciri . Setelah ciri didapatkan kemudian dilakukan proses pengelompokan dengan menggunakan pengelompokan orthogonal, yaitu digunakan Singular Value Decomposition (SVD). Pada tahap ini akan dilakukan analisa, apakah pengelompokan dengan SVD menghasilkan pengelompokan secara akurat dan persistent atau tidak. Tahap selanjutnya adalah penentuan label dan hirarki, label ditentukan terhadap kata/frase kunci yang memiliki nilai terbesar dalam kelompok vektor dan hirarki dilakukan dengan membandingkan tiap pasangan kelompok untuk melihat apakah dapat dilakukan penggabungan kelompok atau diperlakukan sebagai relasi induk-anak. Tahap terakhir dilakukan pengujian. Melihat hasil pengujian penelitian tahapan demi tahapan, maka dapat diketahui bahwa sistem pengelompokan orthogonal terhadap basis data arsip mampu mengelompokkan secara semantik, dan juga dapat dibuat suatu hirarki yang memudahkan pengguna dalam menelusuri yang relevan. Kata-kata kunci : latent semantic indexing, cluster, , arsip , semantik, temu kembali. xiv

8 ABSTRACT SEMANTIC, HIERARCHICAL AND ONLINE CLUSTERING ON ARCHIVE DATABASE By M. Zudha Ghofur 08/279229/PPA/2770 To manage the stored , it currently takes a manually created rules to filter/ categorize as desired. Meanwhile, to rediscover the that has been saved, it can be used search feature. Search results in the client is currently just a flat list of . To facilitate users easily and quickly search for relevant , needed a way to classify s into a relevant label/category. clustering not only by words but also in the form of semantic/phrases, and can also be presented in a hierarchical and online clustering. The research was conducted start from data collection of electronic mail are stored as database archive, then do preprocessing includes stopping and stemming. The next stage is feature extraction, here used key phrases which are extracted from a collection of as a feature of the . Having obtained the feature, then do the clustering by using orthogonal clustering, which used Singular Value Decomposition. At this stage it will be analyzed, whether clustering with SVD produces accurate grouping and persistent or not. The next stage is to determine the label and hierarchy, the label specified key words/phrases that have the greatest value in the group vector, and the hierarchical done by comparing each pair of groups, to see whether the merger can be treated as a group or a parent-child relationship. The last stage of this research will be testing each stage. Seeing the results of stage-by-stage testing research, it can be seen that the orthogonal clustering system on the archive database capable of clustering semantically electronic mail, and also can be made of a hierarchy that allows users to browse the relevant . Keywords : latent semantic indexing, cluster, , archive, semantic, information retrieval. xv

9 BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini, surat elektronik atau merupakan salah satu cara yang masih dipakai untuk berkomunikasi secara elektronik. telah digunakan sejak era AR- PANET hingga era internet saat ini. Rata-rata pengguna internet di dunia memiliki alamat , sehingga pengguna berbanding lurus terhadap pengguna internet. Perkembangan saat ini semakin luas dimasyarakat. Hal ini didukung dengan hadirnya perangkat bergerak yang mendukung layanan , seperti PDA (personal digital assistant), smartphone, dan MID (mobile internet device). Apalagi layanan push yang ditawarkan oleh beberapa provider telekomunikasi memberikan posisi penting dari adanya tersebut. Dengan adanya kemajuan teknologi penyimpanan, saat ini kapasitas semakin bertambah. Layanan yang ditawarkan secara cuma-cuma bahkan mampu memberikan kapasitas penyimpanan sampai 30 Gigabyte (contoh: gmail untuk pendidikan). Dengan adanya kapasitas penyimpanan yang semakin besar, maka pengguna cenderung untuk menyimpan/mempertahankan nya. Meskipun demikian, pengguna dapat menggunakan client, dan memindahkan nya dari server ke komputer pribadinya, sehingga semua dapat disimpan dan dibaca secara offline. Seiring waktu, jumlah yang dimiliki tiap pengguna akan bertambah banyak dan tidak selayaknya - tersebut dihapus, karena kapasitas yang cukup dan sebagian besar tersebut cukup penting bagi pengguna. Saat ini, untuk keperluan arsip , yaitu menyimpan data-data selama mungkin, dapat dilakukan dengan menggunakan aplikasi pengarsipan yang telah ada, antara lain: mailarchiva, mailpiler, enkive, archiveopteryx, archiv , MHonArc. Beberapa aplikasi pengarsipan dapat menyimpan ke dalam suatu basis data, sehingga dapat dikelola kembali dengan mudah, Thickins (2006). Secara teknis terdiri dari beberapa bagian atau atribut seperti atribut mail-dari, mail-untuk, subjek, pesan, lampiran dan lain-lain. Sekumpulan pada kotak surat dapat diperlakukan sebagai jumlah record dengan jumlah atribut dari . Dengan cara ini disimpan dalam kotak surat dapat diperlakukan sebagai basis data , Nagwani dan Bhansali (2010). 1

10 2 Salah satu aplikasi mail transfer agent (MTA) yaitu DBMail, mampu menangani yang datang dan kemudian menyimpannya pada suatu basis data. Aplikasi DBMail ini salah satu prosesnya yaitu mengurai suatu kedalam basis data yang terdiri dari beberapa atribut seperti judul, pesan, tanggal, dari, lampiran, dan seterusnya. Aplikasi DBMail dapat dipakai sebagai basis data arsip yang akan dikelola lebih lanjut. Untuk mengelola - yang tersimpan, saat ini diperlukan suatu aturan yang dibuat secara manual untuk menyaring/mengkategorikan sesuai yang dikehendaki. Sedangkan untuk menemukan kembali yang telah disimpan, dapat digunakan fitur pencarian. Hasil pencarian yang ada pada client saat ini hanyalah berupa daftar secara rata. Untuk memudahkan pengguna mencari yang relevan dengan mudah dan cepat, diperlukan cara untuk mengelompokkan kedalam suatu label/kategori yang relevan. Pengelompokan tidak hanya berdasarkan kata saja tetapi juga berupa semantik/frase. Pengelompokan secara semantik, maksudnya algoritma mampu mengelompokkan hasil pencarian berdasarkan topik semantik. Hasil pencarian memungkinkan memiliki beberapa topik, sehingga algoritma juga diupayakan mampu memberikan label tiap kelompok yang menggambarkan topik kelompok. Dengan demikian pengguna dapat dengan mudah menentukan secara sekilas apakah suatu kelompok sesuai atau tidak dengan keinginannya. Sebelum dikelompokkan, algoritma harus menentukan jumlah kelompok yang ideal dan sesuai. Misalkan dalam pencarian didapatkan 100 data, berapa jumlah kelompok yang cocok? apakah 5, 10 atau 20? Bagaimana jika datanya hanya 5, apakah tetap dibuat 5 kelompok. Dengan mengetahui jumlah kelompok yang sesuai, diharapkan dapat ditampilkan hasil yang lebih representatif. Selanjutnya, pengelompokan disajikan secara hirarki, maksudnya hasil pengelompokan dijadikan seperti struktur pohon sehingga dapat dengan mudah ditelusuri oleh pengguna. Dengan adanya DBMail, yang menyimpan suatu ke dalam basis data, maka selanjutnya dapat dilakukan pengambilan untuk dilakukan proses pengelompokan secara semantik terhadap atribut yang dikehendaki. DBMail dalam penelitian ini akan membantu mengurangi proses penguraian dan menjadikan proses pengelompokan lebih responsif.

11 3 1.2 Perumusan Masalah Berdasarkan uraian dari latar belakang masalah dapat dirumuskan permasalahan yang ada untuk diselesaikan dalam penelitian ini, yaitu: 1. Bagaimana mengembangkan metode tahapan pengelompokan secara semantik? 2. Bagaimana menentukan jumlah kelompok yang ideal? 3. Bagaimana hasil pemilihan label kelompok? 4. Bagaimana mengimplementasikan metode pengelompokan secara semantik dan hirarki dari basis data arsip ? 1.3 Batasan Masalah Dalam penelitian ini, terdapat beberapa batasan masalah yaitu: 1. Pengelompokan pada satu bahasa yaitu bahasa Indonesia. 2. Pra pemrosesan menggunakan stemmer bahasa Indonesia. 3. telah tersimpan pada suatu basis data arsip Identifikasi semantik/frase menggunakan Suffix Array. 5. Dalam penelitian ini tidak mencakup pencarian semantik maupun klasifikasi semantik. 1.4 Tujuan Penelitian Tujuan yang ingin dicapai melalui penelitian ini antara lain: 1. Mengembangkan metode yang mampu mengelompokan surat elektronik secara semantik. 2. Mengembangkan cara pengambilan/ekstraksi ciri dari basis data arsip Melakukan analisis jumlah kelompok yang ideal.

12 4 4. Melakukan analisis hasil pengelompokan secara semantik. 5. Melakukan analisis hasil pemilihan label kelompok. 6. Melakukan analisis hirarki hasil pengelompokan. 7. Mengembangkan aplikasi prototipe sistem pengelompokan secara semantik dan hirarki dari basis data arsip Manfaat Penelitian Dengan mengacu pada tujuan penelitian di atas, maka manfaat penelitian meliputi hal-hal sebagai berikut: 1. Menghasilkan metode pengelompokan surat elektronik secara semantik, hirarki dan langsung untuk basis data arsip Menghasilkan aplikasi prototipe yang dapat memudahkan pencarian dengan dikelompokkan berdasarkan relevansinya. 3. Selain itu hasil dari penelitian ini juga dapat menjadi salah satu acuan tentang pengelompokan text pada Keaslian Penelitian Berdasarkan penelusuran literatur dan internet yang dilakukan penulis, sejauh ini belum ditemukan penelitian yang membahas khusus pengelompokan secara semantik, hirarki dan langsung pada basis data arsip . Namun demikian, ada penelitian sejenis tentang pengelompokan secara semantik, hirarki dan langsung pada hasil pencarian web yang akan dipaparkan pada tinjauan pustaka pada penelitian ini. 1.7 Metodologi Penelitian Pengumpulan data Pengumpulan data dilakukan melalui sebuah basis data yang diperoleh dari MTA (Mail Transfer Agent) yang ada. Proses ini menggunakan LMTP (Local Mail Transport Protocol) atau program mail delivery, yang akan menerus-kan yang datang ke sebuah program. Program ini selanjutnya menginjeksi ke

13 5 basis data. yang masuk ke basis data sudah dalam bentuk terurai. Dari basis data ini, kemudian akan diambil yang sesuai untuk diproses lebih lanjut Pra pengolahan data Tahapan dasar dari pra pengolahan data adalah text filtering dan stemming. Text filtering merupakan proses penghapusan kata yang memiliki jumlah huruf sedikit, kata yang sering muncul, dan simbol khusus. Stemming merupakan proses pencarian akar kata yang dapat mengurangi dimensi kata. Stemming yang akan digunakan adalah dari Asian dkk. (2003). Pada tahap ini perlu pengumpulan kata dasar dalam bahasa Indonesia sebanyak mungkin dan dimasukkan dalam suatu kamus kata dasar. Data ini akan memberikan keakuratan lebih berdasarkan Asian dkk. (2003). Selain itu juga perlu dilakukan penentuan stop word yang ada dalam bahasa Indonesia. Pemilihan stop word yang tepat dan maksimal akan sangat membantu dalam mengurangi dimensi data Ekstraksi ciri Dalam penelitian ini digunakan frase kunci yang diekstraksi dari kumpulan sebagai ciri . Ada dua kentungan dengan ciri ini, yaitu dapat meningkatkan kualitas pengelompokan melalui peningkatan informasi yang terdapat dalam , dan keuntungan berikutnya adalah membantu untuk membuat label yang ringkas dan akurat untuk kelompok yang dihasilkan. Algoritma pencarian frase untuk kumpulan adalah sama untuk tunggal, karena sebuah kumpulan dapat dianggap sebagai sebuah pseudo- . Dalam tahap ini akan diimplementasikan algoritma suffix array. Dengan suffix array ini akan didapatkan semantik topik yang bisa berupa kata atau kumpulan kata/frase, sehingga akan didapat suatu label suatu kelompok yang memiliki informasi ringkas dan akurat Pengelompokan Pada tahap ini dilakukan proses pengelompokan dengan menggunakan pengelompokan orthogonal. Drineas dkk. (1999) telah memperkenalkan konsep pengelompokan orthogonal dan juga membuktikan bahwa SVD dapat digunakan untuk pengelompokan orthogonal secara cepat dan efisien. Pada tahap ini akan dilakukan analisa, apakah pengelompokan dengan SVD menghasilkan pengelompokan secara

14 6 akurat dan persistent atau tidak. Penggunaan SVD juga dapat digunakan untuk menentukan label, dan pengelompokkannya menggunakan vector space model seperti pada penelitian Osinki (2003) Penentuan label dan pembuatan hirarki Tahap selanjutnya adalah penentuan label dan hirarki. Label ditentukan terhadap kata/frase kunci yang memiliki nilai terbesar dalam kelompok vektor. Selanjutnya dilakukan pembuatan hirarki untuk memudahkan pengaturan. Hirarki dilakukan dengan membandingkan tiap pasangan kelompok untuk melihat apakah dapat dilakukan penggabungan kelompok atau diperlakukan sebagai relasi induk-anak Uji coba Setiap tahap akan melalui proses ujicoba, dan pada proses akhir dilakukan ujicoba secara keseluruhan. Ujicoba akan dilakukan dengan melakukan fungsionalitas dari setiap tahapan, apakah sesuai dengan yang diharapkan atau tidak. Diharapkan dengan dilakukan ujicoba dapat ditentukan apakah tahapan-tahapan tersebut telah optimal atau belum dan apakah sesuai dengan perkiraan hasilnya.

15 7 1.8 Sistematika Penulisan Penulisan tesis ini dibuat dalam bentuk Sistematika Penulisan sebagai berikut: Bab I : Pendahuluan Bab ini berisi latar belakang permasalahan, rumusan masalah dalam penelitian ini, batasan permasalahan, tujuan penelitian, manfaat penelitian, keaslian tesis, metode penelitian dan sistematika penulisan. Bab II : Tinjauan Pustaka Bab ini berisi tentang uraian sistematis informasi hasil penelitian yang disajikan dalam pustaka dan menghubungkannya dengan masalah penelitian yang sedang diteliti. Bab III : Landasan Teori Bab ini berisi tentang teori-teori dan referensi-referensi serta pengertian dasar yang berkaitan dengan topik penelitian dan analisa data dalam penyusunan tesis ini yang berhubungan dengan judul. Bab IV : Analisis dan Perancangan Sistem Bab V : Implementasi Bab ini berisi tentang analisa kebutuhan dan desain untuk membangun sebuah sistem aplikasi yang diusulkan. Bab ini berisi langkah-langkah implementasi pengembangan sistem pengelompokan . Bab VI : Hasil Penelitian dan Pembahasan Bab ini membahas analisa sistem yang telah dibangun, menganalisis validitas sistem, keuntungan dan kerugian sistem. Bab VII : Kesimpulan dan Saran Bab ini merupakan kesimpulan dari keseluruhan implementasi sistem yang dibuat dan saran untuk pengembangan sistem selanjutnya.

16 BAB II TINJAUAN PUSTAKA Penelitian tentang pengelompokan hasil pencarian web secara semantik, hirarki dan cepat pernah dilakukan oleh Zhang dan Dong (2001) dengan mengimplementasikan algoritma berdasarkan suffix array (Yamamoto dan Church, 2001), untuk menemukan frase. Efisiensi metode ini telah dibuktikan dengan mampu menangani berapapun besarnya kata-kata. Konsep pengelompokan secara orthogonal diusulkan untuk masalah pengelompokan secara umum. Zhang dan Dong (2001) juga membuktikan bahwa matrik SVD (Singular Value Decomposition) dapat memberikan solusi untuk pengelompokan orthogonal. Algoritma pengelompokan orthogonal memiliki landasan matematika yang kuat dan banyak keunggulan dibanding algoritma pengelompokan heuristic tradisional. Pencarian akar kata biasanya menghilangkan imbuhannya. Pencarian akar kata banyak dipakai oleh banyak aplikasi seperti pencarian text, penterjemah mesin, peringkasan dokumen dan juga pengelompokan text. Sebagai contoh, pencarian kata inggris mengurangi kata "computer", "computing", "computation", dan "computability" menjadi akar kata umum "comput-". Dalam pencarian kata, akar kata tersebut memungkinkan kata "computers" untuk mencari semua dokumen berisi akar kata "comput-". Dalam bahasa Indonesia, pencarian akar kata agak rumit, karena memiliki awalan, akhiran, sisipan, dan juga awalan dan akhiran yang menjadikan pencarian kata yang relevan lebih sulit. Asian dkk. (2003) telah melakukan investigasi terhadap performa dari lima algoritma pencarian akar kata dalam bahasa Indonesia, dan menunjukkan bahwa dengan ketersediaan kamus, algoritma Nazief dan Adriani berhasil mencari akar kata sekitar 93% keakuratannya. Dengan algoritma yang disempurnakan, berhasil mencapai keakuratan 95% (Asian dkk., 2003). Osinki (2003) membahas tentang algoritma lingo untuk pengelompokan hasil pencarian web. Dalam algoritma lingo dibahas tentang deteksi bahasa dan modifikasi dari algoritma yang telah dibuat oleh Zhang dan Dong (2001). Dalam lingo, pengelompokan berdasarkan label kelompok yang menggunakan SVD dan diimplementasikan menggunakan vector space model. Nagwani dan Bhansali (2010) telah melakukan penelitian tentang model pengelompokan dengan pembobotan terhadap atribut . Dengan model ini, akan didapat kelompok berdasarkan atribut-atribut yang ada. pengelom- 8

17 9 pokannya sendiri menggunakan algoritma K-means. Metode kemiripan dari cluster menggunakan pembobotan dengan penjumlahan dari kemiripan atribut "dari", "judul", dan "isi". Untuk normalisasi kemiripan, penjumlahan dari bobot tersebut adalah 1. Prabhakar dan Basavaraju (2010) membahas tentang pemanfaatan pengelompokan text untuk mendeteksi spam. Pada penelitian ini, digunakan algoritma K- Means dan juga Algoritma BIRCH-Balanced Iterative Reducing and Clustering using Hierarchies. Dalam penelitian lain, Kulkarni dan Pedersen (2005) menggunakan pengelompokan secara unsupervised dan pelabelan untuk kontek yang mirip sehingga didapat nama-nama yang mirip dalam satu kelompok. Dengan kemiripan secara kontek, didapat observasi bahwa dapat dianggap sebuah kontek, dan dengan pengelompokan secara bersama-sama didapat pengelompokan berdasarkan pokok dari isi daripada kemunculan string secara spesifik. Dalam penelitian ini, meskipun banyak merujuk pada penelitian Zhang dan Dong (2001) dan Osinki (2003), namun penelitian ini memiliki beberapa perbedaan antara lain: 1. Penggunaan suffix array akan memakai perkata dan tidak perkarakter seperti pada penelitian Zhang dan Dong (2001). 2. Objek penelitian ini adalah pada yang telah terurai pada basis data. Sedangkan pada penelitian Zhang dan Dong (2001) dan Osinki (2003) merupakan kumpulan cuplikan dari hasil mesin pencari. 3. Pada penelitian ini mengkhususkan diri pada pra pemrosesan data dengan perlakuan terhadap bahasa Indonesia sedang dalam Zhang dan Dong (2001) tidak dilakukan pra pemrosesan dan pada Osinki (2003) dilakukan pra pemrosesan dengan pencarian akar kata untuk bahasa inggris. 4. Tahapan dan proses pengelompokan maupun proses lain hasilnya mungkin akan berbeda dengan penelitian Zhang dan Dong (2001) maupun Osinki (2003) karena implementasi dari penelitian tersebut akan ditulis ulang dengan konsep yang ada. Ringkasan hasil penelitian sebelumnya tentang pengelompokan maupun hasil pencarian diperlihatkan pada Tabel 2.1.

18 10 Tabel 2.1: Ringkasan beberapa penelitian sebelumnya dan penelitian yang akan dikerjakan No Peneliti Uraian Metode 1 Zhang dan Dong (2001) Penelitian memfokuskan pada pengelompokan hasil pencarian web untuk membantu pengguna mencari informasi web yang relevan lebih mudah dah cepat 2 Osinki (2003) Penelitian ini mengusulkan sebuah algoritma 3 Nagwani dan Bhansali (2010) 4 Prabhakar dan Basavaraju (2010) yang dinamakan LINGO untuk mengelompokkan hasil pencarian web Dalam penelitian ini, pembobotan kemiripan atribut berdasarkan model data mining diusulkan untuk mengelompokkan untuk mengetahui kelompok Penelitian ini mengusulkan teknik deteksi spam menggunakan pengelompokan text berdasarkan model ruang vektor orthogonal konsep pengelompokan SVD untuk label dan VSM Menggunakan K-Means dengan teknik text similiarity algoritma K-Means Algoritma dan BIRCH untuk neighbor K-nearest neighbor klasifikasi Nearest dan pengelompokan. untuk

19 11 5 Kulkarni dan Pedersen (2005) 6 Penelitian yang akan dikerjakan Penelitian ini menerapkan teknik unsupervised word sense discrimination berdasarkan pengelompokan kontek yang sama terhadap permasalahan pembedaan nama dalam pengelompokan . Label didasarkan pada nama Penelitian ini fokus terhadap pengelompokkan dengan menghasilkan label secara semantik khususnya untuk bahasa Indonesia dan disajikan dengan hirarki, data diambil dari basis data yang dinormalisasi sehingga bisa diproses lebih cepat menggunakan sensecluster yang terdiri dari beberapa algoritma clustering Menggunakan pra-proses stemmer Indonesia, suffix array per kata, pengelompokan orthogonal dan pelabelan menggunakan SVD

20 BAB III DASAR TEORI Untuk mendukung penelitian ini, pada bab III ini diuraikan beberapa dasar teori yang berkaitan dengan penelitian, antara lain stemming, vector space model, latent semantic indexing, suffix array, serta evaluasi pengelompokan hasil pencarian. Stemming pada penelitian ini digunakan untuk pencarian akar kata yang nantinya dapat mengurangi dimensi data. Vector space model digunakan sebagai penyajian dokumen yang akan diolah. Kemudian latent semantic indexing digunakan untuk dasar pengelompokan dokumen penelitian. Suffix array digunakan untuk menentukan frase atau kata secara semantik. Terakhir adalah teknik evaluasi pengelompokan hasil pencarian yang digunakan untuk mengevaluasi hasil dari penelitian ini. 3.1 Stemming Stemming adalah suatu proses yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturanaturan tertentu. Sebagai contoh, kata bergabung, menggabungkan, digabung, akan distem ke akar katanya yaitu "gabung". Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks (akhiran). Sedangkan pada teks berbahasa Indonesia, selain sufiks, juga dihilangkan prefiks (awalan), dan konfiks (awalan dan akhiran). Proses stemming setidaknya memiliki dua tujuan, yang pertama yaitu efisiensi, ukuran indeks dapat diperkecil karena beberapa kata berimbuhan yang memiliki kata dasar yang sama akan diindeks menjadi satu, sehingga akan mengurangi kebutuhan ruang penyimpanan untuk indeks dan mempercepat proses pencarian, yang kedua yaitu meningkatkan efektifitas dokumen yang ditemukan kembali (recall) dengan mengurangi varian kata menjadi bentuk kata dasarnya (stem). Stemming bukan merupakan proses untuk mendapatkan bentuk baku atau tata bahasa yang benar. Oleh karena itu, algoritma stemming masih dapat ditolerir jika membuat beberapa kesalahan dan tidak harus menghasilkan kata-kata yang bermakna (semantik). 12

21 Stemming bahasa Indonesia Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti Algoritma Porter untuk teks berbahasa inggris, algoritma Porter untuk teks berbahasa Indonesia, dan algoritma Nazief dan Adriani untuk teks berbahasa Indonesia. Imbuhan (affixes) pada bahasa Indonesia lebih komplek bila dibandingkan dengan imbuhan pada bahasa Inggris. Pada bahasa Indonesia afiks terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes), bentuk perulangan (repeated forms) dan kombinasi dari awalan dan akhiran confixes. Imbuhan-imbuhan yang melekat pada suatu kata harus dihilangkan untuk mengubah bentuk kata tersebut menjadi bentuk kata dasarnya. Sebagai contoh kata "mengasihi", jika dihilangkan awalan dan akhiran menjadi "asih". Struktur pembentukan kata dalam bahasa Indonesia adalah sebagai berikut: [awalan-1] + [awalan-2] + kata dasar + [akhiran] + [kepunyaan] + [sandang] Masing-masing bagian tersebut (yang dalam kotak bisa ada atau tidak), digabungkan dengan kata dasar membentuk kata berimbuhan. Di bawah ini imbuhan yang banyak digunakan dalam bahasa Indonesia : 1. Kata sandang: -lah, -kah, -pun, -tah. 2. Kata kepunyaan: -ku, -mu, -nya. 3. Akhiran: -i, -an, -kan. 4. Awalan: me-, ber-, pe-, di-, ke-, ter-, se-. Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani merupakan salah satu algoritma stemmer bahasa Indonesia yang dapat bekerja dengan baik (Asian dkk., 2003). Algoritma ini memiliki tahap-tahap sebagai berikut: 1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah kata dasar. Maka algoritma berhenti. 2. Inflection suffixes ("-lah", "-kah", "-ku", "-mu", atau "-nya") dibuang. Jika berupa particles ("-lah", "-kah", "-tah" atau "-pun") maka langkah ini diulangi lagi untuk menghapus possesive pronouns ("-ku", "-mu", atau "-nya"), jika ada. 3. Hapus derivation suffixes ("-i", "-an" atau "-kan"). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3(a)

22 14 (a) Jika "-an" telah dihapus dan huruf terakhir dari kata tersebut adalah "-k", maka "-k" juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3(b). (b) Akhiran yang dihapus ("-i", "-an" atau "-kan") dikembalikan, lanjut ke langkah Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka lanjutkan ke langkah 4(a), jika tidak lanjutkan ke langkah 4(b). (a) Periksa Tabel 3.1 kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak lanjutkan ke langkah 4(b). (b) Tentukan tipe awalan, kemudian hapus awalan. Jika kata dasar belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti. 5. Melakukan Perekaman. 6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai kata dasar. Proses selesai. Tabel 3.1: Kombinasi awalan akhiran yang tidak diijinkan Awalan akhiran yang tidak diijinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Tipe awalan ditentukan melalui langkah-langkah berikut: 1. Jika awalannya adalah: "di-", "ke-", atau "se-" maka tipe awalannya secara berturut-turut adalah "di-", "ke-", atau "se-". 2. Jika awalannya adalah "te-", "me-", "be-", atau "pe-" maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.

23 15 3. Jika dua karakter pertama bukan "di-", "ke-", "se-", "te-", "be-", "me-", atau "pe-" maka berhenti. 4. Jika tipe awalan adalah "none" maka berhenti. Jika tipe awalan adalah bukan "none" maka awalan dapat dilihat pada Tabel 3.2. Hapus awalan jika ditemukan. Tabel 3.2: Cara menentukan tipe awalan untuk kata yang diawali dengan "te-" Karakter yang mengikuti Tipe Set 1 Set 2 Set 3 Set 4 Awalan "-r-" "-r-" - - none "-r-" vokal - - ter-luluh "-r-" bukan (vokal atau "-r-") "-er-" vokal ter "-r-" bukan (vokal atau "-r-") "-er-" bukan vokal ter- "-r-" bukan (vokal atau "-r-") bukan "-er-" - ter bukan (vokal atau "-r-") "-er-" vokal - none bukan (vokal atau "-r-") "-er-" bukan vokal - te Untuk mengatasi keterbatasan pada algoritma Bobby Nazief dan Mirna Adriani, maka ditambahkan aturan-aturan dibawah ini (Asian dkk., 2003): 1. Aturan untuk reduplikasi. Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka akar kata adalah bentuk tunggalnya, contoh : "buku-buku" akar katanya adalah "buku". Jika kedua kata berlainan, misalnya "bolak-balik", "berbalas-balasan, dan "seolah-olah". Untuk mendapatkan akar katanya, kedua kata diartikan secara terpisah. Jika keduanya memiliki akar kata yang sama maka diubah Tabel 3.3: Jenis awalan berdasarkan tipe awalannya Awalan yang harus dihapus di- ke- se- te- ter- ter Tipe awalan dikeseteterter-luluh

24 16 menjadi bentuk tunggal, contoh: kata "berbalas-balasan", "berbalas" dan "balasan" memiliki akar kata yang sama yaitu "balas", maka akar kata "berbalas-balasan" adalah "balas". Sebaliknya, pada kata "bolak-balik", "bolak" dan "balik" memiliki kata dasar yang berbeda, maka kata dasarnya adalah "bolak-balik" 2. Tambahan bentuk awalan dan akhiran serta aturannya. Untuk tipe awalan "mem-", kata yang diawali dengan awalan "memp-" memiliki tipe awalan "mem-". Tipe awalan "meng-", kata yang diawali dengan awalan "mengk-" memiliki tipe awalan "meng-". Algoritma kedua adalah algoritma Porter bahasa Indonesia (Tala, 2004). Adapun langkah-langkah algoritma ini adalah sebagai berikut: 1. Hapus Particle. 2. Hapus Possesive Pronoun. 3. Hapus awalan pertama. Jika tidak ada lanjutkan ke langkah 4(a), jika ada maka lanjutkan ke langkah 4(b). 4. (a) Hapus awalan kedua, lanjutkan ke langkah 5(a). (b) Hapus akhiran, jika tidak ditemukan maka kata tersebut diasumsikan sebagai kata dasar. Jika ditemukan maka lanjutkan ke langkah 5(b). 5. (a) Hapus akhiran. Kemudian kata akhir diasumsikan sebagai kata dasar. (b) Hapus awalan kedua. Kemudian kata akhir diasumsikan sebagai kata dasar. Terdapat 5 kelompok aturan pada algoritma Porter untuk bahasa Indonesia ini. Aturan pertama yaitu aturan untuk mengubah akhiran partikel inflectional particle, jika ditemukan akhiran yang memenuhi kondisi, maka akhiran dihapus, lihat tabel Tabel 3.4. Aturan kedua yaitu aturan untuk inflectional possesive pronoun seperti terlihat pada Tabel 3.5. Aturan ketiga yaitu aturan untuk first order derivational prefix seperti terlihat pada Tabel 3.6. Aturan keempat yaitu aturan untuk second order derivational prefix seperti terlihat pada Tabel 3.7. Terakhir, aturan kelima yaitu aturan untuk derivational suffix dapat dilihat pada Tabel 3.8. Setiap akhiran atau awalan

25 17 Tabel 3.4: Aturan untuk inflectional particle Akhiran Pengganti Kondisi penilaian Kondisi tambahan Contoh -kah NULL 2 NULL bukukah -lah NULL 2 NULL pergilah -pun NULL 2 NULL bukupun Tabel 3.5: Aturan untuk inflectional possesive pronoun Akhiran Pengganti Kondisi penilaian Kondisi tambahan Contoh -ku NULL 2 NULL bukuku -mu NULL 2 NULL bukumu -nya NULL 2 NULL bukunya yang memenuhi kondisi akan dilakukan penggantian akhiran sesuai tabel. Kata "NU- LL" dalam tabel maksudnya adalah kosong atau tidak ada. Proses stemming menggunakan algoritma Porter dapat dilihat pada Gambar 3.1. Gambar 3.1: Proses stemming algoritma Porter bahasa Indonesia (Tala, 2004)

26 18 Tabel 3.6: Aturan untuk first order derivational prefix Awalan Pengganti Kondisi penilaian Kondisi tambahan Contoh meng- NULL 2 NULL mengukur => ukur meny- S 2 V...* menyapu => sapu men- NULL 2 NULL menduga => duga mem- P 2 V... memaksa => paksa mem- NULL 2 NULL membaca => baca me- NULL 2 NULL merusak => rusak peng- NULL 2 NULL pengukur => ukur peny- S 2 V... penyapu => sapu pen- NULL 2 NULL penduga => duga pem- P 2 V... pemaksa => paksa pem- NULL 2 NULL pembaca => baca di- NULL 2 NULL diukur => ukur ter- NULL 2 NULL tersapu => sapu ke- NULL 2 NULL kekasih => kasih Tabel 3.7: Aturan untuk second order derivational prefix Awalan Pengganti Kondisi penilaian Kondisi tambahan Contoh ber- NULL 2 NULL berlari => lari bel- NULL 2 Ajar belajar => ajar be- NULL 2 k*er bekerja => kerja per- NULL 2 NULL perjelas => jelas pel- NULL 2 Ajar pelajar => ajar pe- NULL 2 NULL pekerja => kerja Tabel 3.8: Aturan untuk derivational suffix Akhiran Pengganti Kondisi penilaiabahan Kondisi tam- -kan NULL 2 Prefix bukan anggota {ke, peng} -an NULL 2 prefix bukan anggota {di, meng, ter} -i NULL 2 prefix bukan anggota {ber, ke, peng} Contoh tarikkan => tarik, mengambilkan => ambil makanan => makan, perjanjian => janji Tandai => tanda, mendapati => dapat

27 Vector Space Model Berbagai model matematika telah diusulkan untuk menyajikan sistem dan prosedur temu kembali. Model boolean membandingkan pernyataan penelusuran boolean dengan kumpulan kata yang digunakan untuk mengidentifikasi isi dokumen. Model probabilistik berdasarkan perhitungan probabilistik yang relevan pada kumpulan dokumen. Terakhir, Vector Space Model (Model Ruang Vektor) menggunakan kumpulan kata untuk menyajikan penelusuran dan dokumen-dokumen, menggunakan operasi aljabar linear dasar untuk menghitung kemiripannya. Diantara model tersebut, vektor space model yang paling sederhana digunakan dan pada beberapa keperluan yang paling produktif (Salton, 1989). Pada Vector Space Model (VSM), setiap dokumen dalam koleksi disajikan sebagai vektor multidimensi. Tiap komponen dari vektor mencerminkan sebuah kata tertentu atau term yang terhubung dengan dokumen yang berkaitan. Nilai dari tiap komponen tergantung dari derajat hubungan diantara kata yang bersesuaian dengan dokumennya. Salah satu untuk mengukur hubungan kata dengan dokumen yaitu dengan pembobotan kata Pembobotan kata Pembobotan kata yaitu proses menghitung derajat hubungan atau asosiasi diantara kata dan dokumen. Karena model ruang vektor memerlukan keterhubungannya ditunjukkan oleh sebuah nilai numerik tunggal, maka a ij melambangkan derajat hubungan antara term i dan dokumen j. Pembobotan biner, pada kasus sederhana asosiasinya menggunakan biner: a ij = 1 jika kata i muncul pada dokumen j, jika tidak a ij = 0. Pembobotan biner menginformasikan tentang fakta bahwa suatu term berelasi terhadap dokumen tetapi tidak memiliki informasi tentang sebera besar hubungannya. Pembobotan frekuensi kata, pembobotan kata yang lebih bagus yaitu dengan frekuensi kata. Pada skema ini a ij = tf ij dengan tf ij menandakan berapa banyak kata i yang muncul pada dokumen j. Lebih jelasnya, frekuensi kata lebih informatif dibanding pembobotan biner yang sederhana. Meskipun demikian, pembobotan ini masih memiliki kelemahan. Untuk mengidentifikasi masalahnya, anggaplah pada kumpulan dokumen terdapat 95% kata "komputer" yang sering muncul. Secara lokal, untuk tiap dokumen secara terpisah, kata tersebut menunjukkan isi dari dokumen. Tetapi, karena kata tersebut muncul pada hampir tiap koleksi dokumen, maka

28 20 tidak dapat dibedakan dokumen satu dengan lainnya. Maka, secara keseluruhan kata "komputer" bernilai sedikit. Untuk itu frekuensi kata hanya fokus pada kemunculan kata secara lokal. Pembobotan Tf-idf, tf-idf (term frequency inverse document frequency) ditujukan untuk meyeimbangkan kata yang muncul secara lokal dan keseluruhan dalam dokumen-dokumen. Skema ini dituliskan sebagai berikut: a ij = tf ij log(n/df i ) (3.1) dengan tf ij adalah frekuensi kata, df i menunjukkan jumlah dokumen yang memiliki kata i, dan N menunjukkan jumlah total dokumen dalam koleksi. log(n/df i ), atau seringkali diacu sebagai faktor idf (inverse document frequency), akun untuk pembobotan keseluruhan untuk kata i. Dengan demikian, ketika sebuah kata muncul pada seluruh koleksi dokumen,df i = N maka bobot kata menjadi 0, menunjukkan bahwa kata tersebut tidak berguna sebagai pembeda dokumen. Untuk penjelasan lebih rinci tentang skema pembobotan kata diatas bisa dilihat Salton (1989). 3.3 Latent Semantic Indexing Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut dekomposisi nilai singular (SVD) untuk mengidentifikasi pola-pola dalam hubungan antara istilah dan konsep yang terkandung dalam koleksi terstruktur dari teks. LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama. Fitur utama dari LSI adalah kemampuannya untuk mengekstrak isi konseptual dari teks dengan membuat asosiasi antara istilah yang muncul dalam konteks yang serupa. Dinamakan Latent Semantic Indexing karena kemampuannya untuk mengkorelasikan secara semantik istilah yang berhubungan dan laten dalam kumpulan teks, pertama kali diterapkan untuk teks di laboratorium Bell pada akhir 1980-an. Metode ini, juga dinamakan Latent Semantic Analysis (LSA), mengungkap struktur semantik laten yang mendasari penggunaan kata dalam teks dan bagaimana hal itu dapat digunakan untuk mengekstrak makna teks dalam menanggapi permintaan pengguna, sering disebut sebagai konsep pencarian. Pertanyaan, atau pencarian konsep, terhadap satu kumpulan dokumen yang telah mengalami LSI akan mengembalikan hasil yang

29 21 secara konseptual mirip maksudnya dengan kriteria pencarian meskipun jika hasilnya tidak mengandung suatu kata tertentu atau kata-kata dengan kriteria pencarian. LSI mengatasi dua kendala yang paling bermasalah dari permintaan kata kunci Boolean: beberapa kata yang memiliki makna sama (sinonim) dan kata-kata yang memiliki lebih dari satu makna (polisemi). Sinonim dan polisemi sering menjadi penyebab dari ketidaksesuaian dalam kosa kata yang digunakan oleh penulis dokumen dan pengguna sistem temu kembali informasi. Akibatnya, permintaan kata kunci boolean sering memberikan hasil yang tidak relevan dan kehilangan informasi yang relevan. LSI juga digunakan untuk melakukan kategorisasi dokumen secara otomatis. Bahkan, beberapa percobaan telah menunjukkan bahwa ada sejumlah korelasi antara cara LSI dan proses manusia dalam mengkategorikan teks (Landauer, T., dkk., 1998). Kategorisasi dokumen yaitu penetapan dokumen untuk satu atau lebih kategori yang telah ditentukan berdasarkan kesamaannya dengan isi konseptual dari kategori (Dumais dkk., 1998). LSI menggunakan dokumen contoh untuk membangun konsep dasar untuk setiap kategori. Selama pengolahan kategorisasi, konsep-konsep yang terkandung dalam dokumen yang dikategorikan dibandingkan dengan konsepkonsep yang terkandung dalam contoh item, dan kategori ditetapkan untuk dokumen berdasarkan kesamaan antara konsep yang dikandungnya dan konsep-konsep yang terkandung dalam dokumen contoh. Pengelompokan dinamis berdasarkan isi konseptual dokumen juga dapat dilakukan dengan menggunakan LSI. Pengelompokan adalah cara untuk mengelompokkan dokumen berdasarkan kesamaan konseptual satu dengan lainnya tanpa menggunakan dokumen contoh untuk membangun konsep dasar untuk setiap kelompok. Hal ini sangat berguna ketika berhadapan dengan koleksi yang belum diketahui dari teks yang tidak terstruktur. LSI menggunakan teknik aljabar linear untuk mempelajari korelasi konseptual dalam kumpulan teks. Secara umum, prosesnya meliputi pembuatan matrik katadokumen berbobot, melakukan dekomposisi nilai singular pada matrik, dan menggunakan matrik untuk mengidentifikasi konsep-konsep yang terkandung dalam teks Singular value decomposition Dasar matematika yang membentuk LSI adalah Singular Value Decomposition (SVD)/Dekomposisi Nilai Singular dari matrik kata-dokumen. Dekomposisi me-

30 22 misahkan sebuah matrik A t d menjadi tiga matrik U, Σ, dan V sehingga menjadi A = UΣV T. U adalah matrik ortogonal t t dengan kolom vektor disebut vektor singular kiri A, V adalah matrik ortogonal d d dengan vektor kolom disebut vektor singular kanan dari A, dan Σ adalah matrik diagonal t d yang memiliki nilai-nilai singular dari A dengan urutan menurun (σ 1 σ 2.. σ min(t,d) ) di sepanjang diagonal. Urutan r A dari matrik A sama dengan jumlah non-nol nilai-nilai singular. Kolom r A pertama dari U membentuk basis ortogonal untuk ruang kolom dari A. Pengambilan dokumen SVD Pada pengambilan dokumen berbasis SVD, hanya k pertama dari vektor basis yang digunakan yaitu matrik U k yang akan diproses lebih lanjut. Untuk menghitung nilai k dipilih norma Frobenius dari matrik kata-dokumen dan perkiraan peringkat-k. Cara tersebut dipilih karena pendekatan lain memiliki parameter-parameter yang tidak mudah diterapkan. Cara ini juga dilakukan oleh Zhang dan Dong (2001) untuk SHOC. Dengan norma Frobenius diperlukan asumsi porsentanse ambang batas q yang menentukan sejauh mana perkiraan peringkat-k harus mempertahankan informasi aslinya. Dengan cara ini, k ditentukan untuk nilai minimal yang memenuhi kondisi berikut: q(a, k) = A k F A F = ki=1 (σi 2 ) ra (1 k r) (3.2) i=1 (σi 2 ) Pada Formula 3.2, A adalah matrik kata-dokumen asli, A k adalah perkiraan peringkat-k, r A adalah peringkat dari matrik A, σ i adalah urutan ke-i nilai singular (urutan ke-i dari elemen diagonal dari matrik Σ SVD) dan A F menyatakan norma Frobenius dari matrik A. Sebagai contoh, diberikan ambang batas kualitas kelompok q* (misal: 80%), jumlah k kelompok ideal yaitu jumlah minimal k yang memenuhi q(a, k) q Zhang dan Dong (2001) dalam penelitiannya untuk pengelompokan orthogonal memberikan ambang batas t untuk menentukan kekuatan pengelompokan. Dokumen ke-g pada kelompok V g terdiri dari kumpulan dokumen yang memiliki nilai lebih besar dari parameter t dalam vektor y g. Kata/kata kunci yang memiliki nilai terbesar dalam x g dapat digunakan sebagai label dari V g.

31 Suffix Array Suffix Array adalah struktur data yang dirancang untuk pencarian yang efisien untuk teks yang besar. Struktur datanya hanyalah sebuah array yang berisi semua pointer ke akhiran teks yang diurutkan berdasarkan leksikografis (abjad). Setiap akhiran merupakan string yang dimulai pada posisi tertentu dalam teks dan berakhir pada akhir teks. Pencarian teks dapat dilakukan dengan pencarian biner menggunakan suffix array Contoh suffix array Misalkan pada teks abracadabra ingin dibuat suffix array. Pertama, yang harus dilakukan adalah menentukan indek untuk teks tersebut. Nilai indek menentukan posisi tempat pencarian dapat dilakukan. Dalam contoh ini, nilai indek ditetapkan tiap karakter. Dengan demikian, nantinya dapat dicari contoh teks dengan suffix array pada setiap posisi. Hasil penentuan indek pada contoh teks abracadabra bisa dilihat pada Gambar 3.2. Gambar 3.2: Contoh text dan indeknya Kedua, yaitu mengurutkan nilai indek berdasarkan pada akhiran yang bersesuaian. Hubungan antara nilai indek dan akhiran seperti Gambar 3.3 Gambar 3.3: Hubungan nilai indek dan akhiran

32 Evaluasi pengelompokan hasil pencarian Ada beberapa cara secara umum untuk melakukan evaluasi pengelompokan. Terdapat dua persamaan yang umum dipakai untuk evaluasi sistem temu kembali, yaitu precision dan recall. Precision adalah perbadingan dokumen yang relevan dari seluruh dokumen yang berhasil ditemukembalikan, dapat diartikan juga sebagai rasio jumlah dokumen yang ditemukan dan dianggap relevan untuk kebutuhan pengguna. Sedangkan recall adalah perbandingan antara dokumen relevan yang berhasil ditemukembalikan dari seluruh dokumen relevan yang ada di dalam sistem, dapat juga diartikan sebagai jumlah dokumen relevan yang ditemukan dibanding dengan jumlah semua dokumen relevan di dalam sistem. P recission = Ra A (3.3) Recall = Ra R (3.4) Ra : Jumlah dokumen relevan yang ditemukembalikan R : Jumlah dokumen yang relevan A : Jumlah hasil temu kembali Sedangkan untuk menentukan nilai dari recall dan precission harus didapatkan jumlah dokumen yang relevan terhadap suatu topik informasi. Dengan membaca dokumen tersebut secara keseluruhan akan dapat ditentukan suatu isi dokumen tersebut relevan terhadap topik atau tidak. Idealnya, kedua perhitungan tersebut menghasilkan nilai 1. Nilai precision 1 berarti semua hasil yang keluar adalah relevan, dan jika nilai recall 1 berarti semua dokumen relevan berhasil didapatkan. Pada prakteknya, terdapat hubungan yang berkebalikan antara recall dan precision yaitu bahwa nilai recall dapat dinaikan dengan cara memperbanyak dokumen yang didapat, tetapi hal ini akan mengurangi nilai precission yaitu semakin bertambah juga dokumen tidak relevan yang didapatkan. Begitu juga sebaliknya, semakin sedikit dokumen yang didapat akan semakin bertambah dokumen yang relevan. Berikut penjelasan singkat tiga metode yang umum dipakai untuk melakukan evaluasi terhadap hasil pengelompokan: 1. Standard IR metrics Pada pendekatan ini, kualitas pengelompokan dievaluasi menggunakan pengu-

33 25 kuran precision dan recall. Salah satu variasi metode ini yaitu isi dari kelompok terurut teratas dianggap sebagai himpunan dari dokumen yang didapat. Dengan himpunan dokumen yang relevan dan dikenal sebagai priori atau diidentifikasi terlebih dahulu, precision dan recall dapat dihitung dengan mudah. 2. Pendekatan Merge-then-cluster yaitu sebuah metode untuk menguji algoritma pengelompokan pada sebuah kumpulan text yang telah disiapkan sebelumnya. Beberapa kumpulan text biasanya dibuat dengan menggabungkan sekumpulan dokumen kecil yang memiliki kemiripan topik. Sebuah algoritma pengelompokan yang bagus harus dapat mendapatkan kelompok aslinya. Kehandalan dari pendekatan metode ini sangat ditentukan dari karakteristik koleksi masukannya. Jika sekumpulan data memiliki kemiripan topik, pengujian algoritma mungkin tidak dapat memisahkannya dengan baik, sehingga menurunkan hasil analisis. Keunggulan dari metode ini yaitu evaluasi dapat dilakukan secara langsung dan otomatis. 3. Evaluasi pengguna evaluasi metode ini berdasar dari opini pengguna sesungguhnya tentang kualitas pengelompokan. Data mengenai evaluasi pengguna dapat dikumpulkan melalui beberapa pertanyaan yang disiapkan atau dapat juga dari catatan server web. Pendekatan ini dapat mengetahui apakah algoritma pengelompokan memenuhi kebutuhan pengguna atau tidak. Meskipun demikian, metode ini memiliki beberapa kekurangan, yaitu tingkat pemahaman pengguna terhadap kebutuhan dan sistem yang berbeda-beda. Untuk mendapatkan evaluasi yang berkualitas, pengguna sebaiknya memahami pengetahuan minimal tentang bagaimana menggunakan sistem, sehingga pengalaman pengguna mengenai waktu dan akurasi yang dihasilkan tidak jauh berbeda. Kekurangan lainnya dari evaluasi pengguna yaitu evaluasi ini tidak dapat dilakukan secara langsung dan otomatis. Hal ini menyebabkan tidak cocok untuk percobaan, misalnya dengan mencoba beberapa parameter, dan sebagainya.

34 BAB IV ANALISIS DAN RANCANGAN SISTEM 4.1 Gambaran Sistem Dalam bab ini akan dibahas tentang analisis dan rancangan sistem untuk melakukan pengelompokan dari basis data arsip pengguna. Pada bab ini juga dibahas tentang rancangan sistem prototipe aplikasi pengelompokan dari basis data arsip untuk membuktikan bahwa metode pengelompokan dapat diimplementasikan. Dengan adanya sistem pengelompokan , dalam basis data arsip dapat ditelusuri oleh pengguna. Kemudian hasil penelusuran tersebut akan ditampilkan oleh aplikasi dalam sebuah hirarki, hirarki ini merupakan hasil pengelompokan sesuai dengan label/kategori pada hirarki tersebut. 4.2 Analisis Kebutuhan Sistem Sebelum sistem dibuat, terlebih dahulu dilakukan analisis kebutuhan sistem. Analisis kebutuhan sistem merupakan proses identifikasi dan evaluasi permasalahanpermasalahan yang ada, sehingga dapat dibangun sebuah sistem yang sesuai dengan yang diharapkan. Sistem aplikasi pengelompokan , dibuat untuk kebutuhan sebagai berikut: 1. Dapat melakukan proses pengumpulan data , yaitu masuk dan keluar dan menyimpannya sebagai suatu arsip basis data Dapat melakukan proses pengindeksan (indexing) termasuk didalamnya pra pemrosesan data, yaitu stemming untuk bahasa Indonesia, dan penghilangan daftar stopwords untuk setiap yang akan diproses lebih lanjut. 3. Sistem hanya bisa diakses oleh pengguna yang terdaftar/telah memiliki Dapat dilakukan proses penemuan kembali informasi dari basis data arsip , sesuai dengan masukan dari pengguna, dengan penerapan pengelompokan orthogonal. 5. Dapat dilakukan penelusuran terhadap arsip terhadap judul dan isi . 26

35 dikelompokkan secara semantik yang dapat memberikan label sutu kata atau frase yang bermakna. 4.3 Analisis Masukan Setelah dilakukan analisis kebutuhan sistem, maka diperlukan analisis masukan untuk memenuhi kebutuhan sistem. Untuk masukan yang diperlukan adalah semua lalu-lintas dari surat elektronik pada suatu organisasi dan pada domain tertentu. Ada beberapa hal yang perlu dipertimbangkan dalam menangani surat elektronik tersebut, yaitu: alamat pengirim, almat tujuan, waktu pengiriman, judul dan isi serta bahasa yang digunakan. Isi pun memiliki beberapa jenis, antara lain jenis plain text dan html (hyper text markup language maupun campuran (multipart). Dalam sistem ini yang diproses dan dikelompokkan adalah isi surat elektronik yang berupa text. 4.4 Analisis Keluaran Setelah diketahui analisis kebutuhan sistem dan analisis masukan, kemudian dilakukan analisis keluaran. Analisis keluaran berguna untuk mengetahui keluaran apa saja yang akan dihasilkan dari suatu sistem serta untuk mengetahui kesesuaian antara kebutuhan dan metode yang digunakan. Keluaran dari sistem ini yaitu berupa temu kembali informasi yang telah dikelompokkan sesuai dengan relevansinya. Keluaran ini kemudian akan diukur apakah sesuai dengan masukan yang diberikan oleh pengguna. Pengukuran atau pengujian dilakukan dengan cara menghitung tingkat precision dan F-Masure hasil temu kembali informasi. Analisis terhadap proses pengelompokan hasil temu kembali informasi dilakukan dengan cara membandingkan nilai F-Measure berdasarkan input kata kunci yang diberikan. 4.5 Rancangan Arsitektur Sistem Rancangan arsitektur sistem yang akan dikembangkan tampak seperti Gambar 4.1. Sistem dimulai dari pengumpulan data, data ini berasal dari sebuah basis data arsip . Setiap dari internet yang dialamatkan untuk suatu alamat yang akan dikelompokkan akan diterima oleh server masuk atau server keluar yang kemudian akan disimpan pada basis data arsip . Server masuk maksudnya server yang bertugas menerima dari server luar, sedangkan server keluar maksudnya server yang digunakan untuk mengirim keluar

36 28 yang akan diterima server lain. - yang disimpan dalam basis data arsip telah dalam bentuk terurai dalam tabel yang berelasi, sehingga memudahkan proses lebih lanjut. Setelah tahap pengumpulan data, selanjutnya proses pra pengolahan data. Proses pra pengolahan data dilakukan agar data yang akan diproses lebih lanjut lebih efisien. Proses selanjutnya adalah ekstraksi ciri yang akan menghasilkan kata/frase kunci dalam bentuk vector space model. Setelah proses ekstraksi ciri, baru kemudian dilakukan proses pengelompokan dengan menggunakan metode latent semantic indexing sekaligus menentukan pelabelan kelompok. Proses terakhir yaitu pembentukan hirarki agar mudah ditelusuri. Proses-proses mulai dari pra pengolahan data sampai pembentukan hirarki dilakukan pada server web yang kemudian akan disajikan ke pengguna dengan antarmuka web. Gambar 4.1: Arsitektur sistem 4.6 Pengumpulan data Tahap pengumpulan data disini dilakukan melalui sebuah server basis data yang diperoleh dari MTA (Mail Transfer Agent) yang ada, yaitu berupa server masuk dan server keluar. Proses ini menggunakan LMTP (Local Mail Transport Protocol) atau program mail delivery, yang akan meneruskan yang datang ke sebuah program. Program ini selanjutnya melakukan penguraian/parsing dan menyimpannya pada sebuah basis data. Dari basis data ini, kemudian akan diambil yang sesuai dengan pencarian pengguna untuk diproses lebih lanjut.

37 Rancangan Algoritma Ketika merancang sebuah algoritma pengelompokan , perlu diperhatikan untuk memastikan isi dan label dari hasil pengelompokan memiliki arti bagi pengguna. Ada dua pendekatan algoritma pengelompokan text pada umumnya, yaitu: pertama, mendapatkan isi pengelompokan terlebih dahulu kemudian berdasarkan isi pengelompokan baru ditentukan labelnya. Kedua, mendapatkan label/deskripsi terlebih dahulu, kemudian berdasarkan label menentukan isi pengelompokan. Pada penelitian ini akan dilakukan pendekatan yang pertama, yaitu menentukan isi baru kemudian ditentukan labelnya. Untuk mendapatkan algoritma pengelompokan yang lebih baik, maka proses pengelompokan diawali dengan sebuah pra pengolahan data, tahap ini meliputi text filtering dan stemming. Selanjutnya dilakukan ekstraksi ciri sekaligus dilakukan pengelompokan. Kemudian dilakukan tahap pasca pengolahan data yang akan membuat suatu hirarki. Tahapan utama dari algoritma pengelompokan seperti terlihat pada Gambar 4.2 / Tahap 1: Pra Pengolahan Data / f o r each document { do t e x t f i l t e r i n g ; a p p l y stemming ; } / Tahap 2: E k s t r a k s i C i r i / d i s c o v e r f r e q u e n t t e r m s and p h r a s e s ; / Tahap 3: Pengelompokan dan l a b e l / gunakan LSI untuk pengelompokan ; f o r each c l u s t e r { t e n t u k a n l a b e l ; } / Tahap 4: Tahap a k h i r pengelompokan / f o r each l a b e l { t e n t u k a n h i r a r k i ; } Gambar 4.2: Pseudo-code algoritma pengelompokan

38 Pra pengolahan data Pada sistem pengelompokan ini, sesuai analisis masukan, yang bertindak sebagai masukan adalah berupa isi yang berupa text. Karena isi terdiri dari beberapa bagian dan jenis, maka perlu dipilih bagian isi yang bejenis text. Meskipun sudah ada seleksi terhadap masukan yang berupa text, tahap pra pengolahan data ini masih perlu dilakukan untuk mengurangi data yang tidak perlu. Jika tahap pra pengolahan data ini tidak dilakukan, maka Latent Semantic Indexing yang akan dipakai untuk pengelompokan akan menghasilkan istilah-istilah yang tidak memiliki arti, dan akan mengakibatkan label-label kelompok yang tidak berguna. Jadi, tujuan utama dari tahap pra pengolahan data adalah untuk menghilangkan semua karakter dan istilah pada masukan yang akan mempengaruhi kualitas pengelompokan . Dalam algoritma ini terdapat dua tahap pra pengolahan data, yaitu text filtering dan stemming. Text filtering Pada tahap text filtering, dilakukan proses penghapusan kata yang memiliki jumlah huruf sedikit, kata yang sering muncul, dan simbol khusus. Tahap ini sering juga disebut stopping. Selain untuk meningkatkan kualitas pengelompokan , text filtering juga akan meningkatkan performa dari proses pengolahan data karena data yang diolah akan sedikit berkurang. Stemming Stemming merupakan proses pencarian akar kata yang dapat mengurangi dimensi kata. Stemming yang akan digunakan adalah algoritma Nazief dan Adriani yang disempurnakan (Asian dkk., 2003). Pada tahap ini perlu pengumpulan kata dasar dalam bahasa Indonesia sebanyak mungkin dan dimasukkan dalam suatu kamus kata dasar. Data ini akan memberikan keakuratan lebih berdasarkan Asian dkk. (2003). Selain itu juga perlu dilakukan penentuan stop word yang ada dalam bahasa Indonesia. Pemilihan stop word yang tepat dan maksimal akan sangat membantu dalam mengurangi dimensi data. Dengan proses stemming ini, karena mengurangi dimensi data, maka proses pengolahan data juga akan lebih cepat tanpa mengurangi kualitas dari hasil pengelompokan. Alur proses yang akan diimplementasikan untuk tahap pra pengolahan data ditunjukkan dalam diagram alir Gambar 4.3.

39 31 Gambar 4.3: Diagram alir pra pengolahan data Ekstraksi ciri Tujuan dari tahap ekstraksi ciri yaitu untuk memperoleh frase atau kata tunggal yang akan meningkatkan kualitas pengelompokan melalui peningkatan informasi yang terdapat dalam . Selain itu, dengan ekstraksi ciri akan membantu untuk membuat label yang ringkas dan akurat untuk kelompok yang dihasilkan. Untuk memilih frase atau kata tersebut, maka beberapa hal yang dipertimbangkan antara lain: 1. frase atau kata harus terdapat dalam masukan minimal dalam beberapa

40 32 kali dalam jumlah yang ditentukan. Hal ini sesuai dengan asumsi temu kembali informasi, bahwa ciri yang sering muncul pada masukan akan memiliki penjelasan yang lebih kuat. Sebaliknya, dengan mengabaikan kata atau frase yang jarang akan meningkatkan secara drastis efisiensi waktu untuk algoritma secara keseluruhan (Osinki, 2003). 2. frase atau kata dibatasi hanya yang terdapat dalam sebuah kalimat/dokumen. Hal ini dikarenakan batasan kalimat/dokumen biasanya mengindikasikan topik tertentu (Zhang dan Dong, 2001). 3. frase atau kata harus lengkap (Zhang dan Dong, 2001). Dibandingkan frase tidak lengkap, frase yang lengkap akan memiliki makna dan deskripsi yang lebih baik pada sebuah dokumen. Untuk ekstraksi ciri pada tesis ini digunakan algoritma menemukan frase yang telah dimodifikasi yang diusulkan oleh Zhang dan Dong (2001). Algoritma ini menggunakan varian suffix array yang ditambahkan struktur data tambahan, yaitu array LCP (Longest Common Prefix). Array ini terdiri dari N +1 bilangan bulat sementara setiap elemen LCP [i] berisi panjang prefiks umum terpanjang antara akhiran yang berdekatan S [i-1] dan S [i]. Untuk menyederhanakan algoritma, array LCP ditambahkan dengan nol sehingga LCP [0] = LCP [N] = 0. Algoritma penemuan frase bekerja dalam dua tahap. Pada tahap pertama, frase kanan dan kiri-lengkap ditemukan, dan pada tahap kedua, mereka digabungkan menjadi satu set frase lengkap. Selanjutnya dipilih frase yang melebihi dari batas yang ditentukan untuk menjadi sebagai ciri yang akan dikelompokkan. Menurut Osinki (2003), untuk akurasi pengelompokan terbaik, nilai batas yang ditentukan berada antara 2 dan 5. Untuk penelitian ini diambil nilai terendah 2 yang berarti frase yang muncul 2 kali atau lebih dianggap sebagai frase yang dipakai ciri. Untuk ringkasan algoritma tahap ekstraksi ciri diperlihatkan pada Gambar 4.4. Untuk mempermudah implementasi penemuan frase yang akan menghasilkan kata/frase yang akan menjadi ciri, maka dibuatlah diagram alir seperti ditunjukkan dalam Gambar 4.5. Tahapan dari diagram alir penemuan frase dapat dijelaskan sebagai berikut: 1. Pertama inisiasi awal variabel alldoc dan alldocr yang akan menampung gabungan semua dokumen asal dan semua dokumen kebalikannya.

41 33 / Tahap 2: E k s t r a k s i C i r i / / Penggabungan dokumen / gabung semua dokumen ; b u a t v e r s i i n v e r s i d a r i dokumen yang t e l a h digabung ; / penemuan f r a s e l e n g k a p / temukan f r a s e kanan l e n g k a p ; temukan f r a s e k i r i l e n g k a p ; u r u t k a n f r a s e k i r i l e n g k a p s e c a r a a b j a d ; gabungkan f r a s e k i r i dan kanan l e n g k a p kedalam sebuah f r a s e l e n g k a p ; / S e l e k s i a k h i r / untuk p r o s e s s e l a n j u t n y a, p i l i h f r a s e dan k a t a yang f r e k u e n s i n y a m e l e b i h i b a t a s yang d i t e n t u k a n ; Gambar 4.4: Pseudo-code ringkasan tahap ekstraksi ciri 2. Selanjutnya lakukan penggabungan dokumen sampai selesai dan disimpan pada variabel alldoc. 3. Setelah digabung, buat dokumen kebalikannya yang disimpan pada variabel alldocr. 4. Kemudian secara berturut-turut, cari suffix array dari alldoc dan simpan dalam variabel sa, hitung lcp dari alldoc dan simpan dalam variabel lcp, cari frase kanan lengkap atau rcs (right complete substring) dari alldoc dan simpan dalam variabel rcs. 5. Setelah rcs diketahui, kemudian rcs diurutkan. 6. Lakukan hal yang sama untuk alldocr untuk mencari lcs (left complete substring). 7. Langkah terakhir untuk mendapatkan frase yaitu dengan mencari irisan antara lcs dan rcs. Hasil dari irisan rcs dan lcs ini yang akan digunakan sebagai ciri Identifikasi dan pembuatan kelompok Pada tahap identifikasi dan pembuatan kelompok ini akan didasarkan dari dekomposisi SVD dari matrik kata-dokumen. Tahap ini terdiri dari pembuatan matrik kata-dokumen, selanjutnya yaitu menentukan latent semantic dari dokumen-dokumen

42 34 Gambar 4.5: Diagram alir penemuan frase dengan menganalisa hubungan antara kata dan dokumen. Tahap ini melakukan dekomposisi nilai singular pada matrik kata-dokumen yang telah dibuat pada tahap sebelumnya untuk mendapatkan matrik U, S, dan V. Kemudian dihitung jumlah kelompok yang yang akan dibuat. Jumlah kelompok dihitung dengan menggunakan parameter q (ambang batas yang dianggap wajar) dan menggunakan matrik S hasil dari dekomposisi nilai singular. Pembuatan matrik kata-dokumen dan perhitungan dekomposisi nilai singular ditunjukkan pada diagram alir Gambar 4.6. Diagram alir pada Gambar 4.6 dapat dijelaskan sebagai berikut: 1. Pembuatan matrik kata-dokumen dibutuhkan tiga masukan yaitu jumlah dokumen dan dokumen dan keyf rase atau frase kunci hasil dari proses ekstraksi ciri tahap sebelumnya. 2. Selanjutnya, lakukan perulangan sejumlah dokumen. 3. Untuk tiap dokumen, cari suffix array dan lcp yang disimpan dalam variabel sa

43 35 dan lcp. 4. Lakukan perulangan sebanyak keyf rase. Perulangan ini digunakan untuk mengetahui apakah frase/kata kunci ada di dokumen atau tidak. 5. Lakukan pencarian frase di dokumen dengan data variabel sa dan lcp. 6. Apakah ditemukan frase didokumen? jika tidak, lanjutkan ke frase selanjutnya. 7. Jika frase ditemukan, cek apakah frase sudah ada di matrik kata-dokumen? jika tidak, tambahkan frase ke matrik-dokumen. Jika ada, tambahkan dokumen ke matrik matrik kata-dokumen yang sesuai. 8. Lanjutkan sampai frase kunci habis. 9. Lanjutkan sampai jumlah dokumen habis. 10. Setelah pembentukan matrik kata-dokumen selesai, lakukan penghitungan dekomposisi nilai singular dan simpan pada variabel U, S, V t. 11. Hasil akhir dari tahap ini yaitu matrik U, S, V t, dan matrk kata-dokumen. Untuk menghitung jumlah kelompok, berdasarkan Formula 3.2, maka dibuatlah diagram alir seperti ditunjukkan pada Gambar 4.7. Tahapan dari diagram alir dapat dijelaskan sebagai berikut: 1. Untuk menghitung jumlah kelompok, diperlukan dua masukan, yaitu matrik S hasil dari fungsi svd dan paramater q. 2. Tentukan variabel awal i, yaitu Periksa apakah variabel i kurang dari atau sama dengan panjang matrik S. Jika benar lakukan langkah selanjutnya, jika salah, proses selesai. 4. Selanjutnya lakukan penghitungan formula dengan menggunakan fungsi yang sesuai dan simpan hasilnya dalam variabel qa. 5. Selanjutnya dilakukan pengecekan, apakah nilai qa lebih besar sama dengan parameter q? 6. Jika salah, lakukan penambahan variabel i, dan ulangi langkah nomor Jika benar, simpan nilai i. Nilai i ini yang menjadi hasil jumlah kelompok. Proses selesai.

44 36 Gambar 4.6: Diagram alir pembuatan matrik kata-dokumen dan dekomposisi nilai singular Penentuan label dan hirarki Penentuan label untuk tiap kelompok dibuat berdasarkan pengelompokan orthogonal. Label ditentukan terhadap kata/frase kunci yang memiliki nilai terbesar

45 37 Gambar 4.7: Diagram alir menghitung jumlah kelompok dalam kelompok vektor. Penentuan kelompok dan label dapat dilihat pada diagram alir Gambar 4.8. Pada diagram alir Gambar 4.8 dapat dijelaskan sebagai berikut: 1. Penentuan kelompok dan label memiliki 5 masukan, yaitu k yang merupakan jumlah kelompok hasil dari proses penentuan jumlah kelompok. Variabel t yang merupakan variabel untuk ambang batas apakah suatu dokumen dapat dimasukkan ke kelompok tertentu atau tidak. Tiga variabel matrik U, V t hasil dari perhitungan dekomposisi nilai singular pada tahap sebelumnya dan matrik A yaitu matrik kata-dokumen. V t adalah matrik transpose dari matrik V. 2. Langkah berikutnya adalah inisiasi awal kelompok yang akan menyimpan hasil pengelompokan dan label yang akan menyimpan label kelompok. Variabel kolomkata mengambil kolom matrik U sebanyak k, dan variabel barisdokumen yang mengambil baris matrik V t sebanyak k. 3. Lakukan perulangan sejumlah kelompok dimulai dari i=1. 4. Lakukan inisialisasi awal, yaitu kelompok ke-i kosong, max=-9999 dan index=- 1

46 38 5. Lakukan perulangan sejumlah baris matrik A dimulai dari j=1. Perulangan ini digunakan untuk mengetahui label apa yang cocok untuk kelompok ke-i. 6. Lakukan pengecekan, apakah max < kolomkata[j,i]? Jika benar, maka index diisi j dan max diganti dengan kolomkata[j,i]. Jika salah, lanjutkan perulangan. 7. Hasil perulangan menghasilkan index yang menyimpan nilai posisi kata yang akan dijadikan label untuk kelompok ke i dan disimpan dalam variabel label[i]. 8. Langkah selanjutnya yaitu lakukan perulangan sejumlah kolom matrik A dimulai dari m=1. Perulangan ini digunakan untuk menentukan dokumen masuk ke kelompok ke-i atau tidak. 9. Lakukan pengecekan, apakah barisdokumen[i,m] > t? Jika benar, berarti dokumen lebih dari ambang batas, maka masukkan dokumen ke-m ke dalam kelompok ke-i. Jika salah, lanjutkan perulangan. 10. Hasil akhir proses ini yaitu array dari kelompok yang berisi nomor kelompok dan nomor dokumen serta label yang berisi nomor kelompok dan index label. Untuk pembuatan hirarki dilakukan dengan membandingkan tiap pasangan kelompok untuk melihat apakah dapat dilakukan penggabungan kelompok atau diperlakukan sebagai relasi induk-anak, seperti terlihat pada Gambar 4.9. Dalam pseudo-code pada Gambar 4.9 dapat dijelaskan sebagai berikut: 1. Untuk tiap kelompok yang akan dijadikan relasi, misalnya X dan kelompok Y, tentukan apakah panjang irisan kelompok X dan kelompok Y dibanding dengan panjang gabungan kelompok X dan kelompok Y lebih besar daripada parameter t1? 2. Jika konfirmasi langkah 1 benar, maka kelompok X dan kelompok Y digabung menjadi satu kelompok. 3. Jika konfirmasi pada langkah 1 salah, maka dilakukan pengecekan, apakah panjang kelompok X lebih besar daripada panjang kelompok Y? 4. Jika konfirmasi pada langkah 3 benar, maka lakukan pengecekan, apakah panjang irisan kelompok X dan kelompok Y dibanding dengan panjang kelompok Y lebih besar daripada paramater t2?

47 39 Gambar 4.8: Diagram alir penentuan kelompok dan label 5. Jika konfirmasi pada langkah 4 benar, maka kelompok Y akan menjadi anak kelompok X. 6. Jika konfirmasi pada langkah 3 salah, maka lakukan pengecekan, apakah panjang irisan kelompok X dan kelompok Y dibanding dengan panjang kelompok X lebih besar daripada paramater t2?

48 40 7. Jika konfirmasi pada langkah 6 benar, maka kelompok X akan menjadi anak kelompok Y. / / Tahap 4: Penentuan h i r a r k i / i f ( X Y / X Y > t 1 ) { X dan Y digabung menjadi s a t u kelompok } e l s e { i f ( X > Y ) { i f ( X Y / Y > t 2 ) { Y Menjadi anak X; } } e l s e { i f ( X Y / X > t 2 ) { X menjadi anak Y; } } } Gambar 4.9: Pseudo-code penentuan hirarki Ketika dua kelompok dasar digabung menjadi satu, label-label kelompok tersebut juga digabung menjadi satu, seperti terlihat pada prosedur pada Gambar 4.10 i f ( l a b e l _ x b a g i a n d a r i l a b e l _ y ) { l a b e l _ x y = l a b e l _ y ; } e l s e i f ( l a b e l _ y b a g i a n d a r i l a b e l _ x ) { l a b e l _ x y = l a b e l _ x ; } e l s e { l a b e l _ x y = " l a b e l _ x + l a b e l _ y " ; } Gambar 4.10: Pseudo-code penggabungan dua kelompok

49 Rancangan Diagram Alir Data untuk Implementasi Aplikasi Untuk membuat prototipe aplikasi, selanjutnya pada bagian ini akan dijelaskan aliran data yang terjadi di dalam prototipe aplikasi ke dalam bentuk diagram alir data Diagram kontek Diagram ini menggambarkan aliran data secara umum pada sistem aplikasi yang akan dibuat. Pada diagram context ini terdapat dua entitas, yaitu entitas pengguna dan entitas pemasok data. Aliran data yang terjadi pada diagram kontek seperti terlihat pada Gambar 4.11 dijelaskan sebagai berikut: 1. Pemasok data dalam hal ini adalah mail transfer agen (MTA), melakukan pengiriman data yang berupa seluruh yang keluar ataupun yang masuk. 2. Pengguna yang telah terautentikasi melakukan penelusuran ke sistem aplikasi, kemudian sistem akan memberikan hasil penelusurannya. Gambar 4.11: Diagram kontek Diagram alir data level 1 Pada diagram alir data level 1 dijelaskan proses-proses yang terjadi pada sistem aplikasi yang lebih rinci sebagai berikut (Gambar 4.12): 1. Proses pemasukan data untuk keluar Proses ini dilakukan oleh sistem MTA atau server yang keluar. Setiap ada dari pengguna ke alamat lain ( keluar), sistem akan meneruskannya ke sistem aplikasi dan selanjutnya diproses untuk diurai dan dimasukkan ke basis data arsip .

50 42 2. Proses pemasukan data untuk masuk Proses ini dilakukan oleh sistem MTA atau server yang masuk. Setiap ada untuk pengguna dari alamat lain ( masuk), sistem akan meneruskannya ke sistem aplikasi dan selanjutnya diproses untuk diurai dan dimasukkan ke basis data arsip Proses penelusuran arsip Proses penelusuran arsip adalah proses penelusuran arsip berdasarkan kata kunci tertentu. Proses ini dilakukan oleh pengguna dengan memasukkan kata kunci terhadap judul atau isi dan kemudian sistem akan memprosesnya dan menampilkan hasil pencarian yang sudah dikelompokkan. Pada proses ini dilakukan pra pemrosesan data, ekstraksi ciri, dan pengelompokan terhadap hasil pencarian. Gambar 4.12: Diagram alir data level Rancangan Antarmuka untuk Implementasi Aplikasi Agar prototipe aplikasi dapat dimanfaatkan pengguna, maka perlu dibuat suatu antarmuka sistem yang akan menghubungkan pengguna dengan sistem. Rancangan antarmuka sistem terdiri dari halaman pencarian dan halaman hasil pencarian Rancangan halaman pencarian Pada halaman pencarian akan dirancang antarmuka sebagai berikut:

Menunjukkan lagi