BAB 3 ANALISA DAN PERANCANGAN

dokumen-dokumen yang mirip
BAB 4 IMPLEMENTASI DAN EVALUASI

UNIVERSITAS BINA NUSANTARA

BAB 2 LANDASAN TEORI

UKDW BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PERSYARATAN PRODUK

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

BAB I PENDAHULUAN. informasi pada ruang lingkup besar (biasanya disimpan di komputer). Di era

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB IV PREPROCESSING DATA MINING

BAB I PENDAHULUAN. internet yang kini menjadi peranan penting. Kebutuhan user yang semakin

BAB 1 PENDAHULUAN UKDW

BAB I PENDAHULUAN 1.1 Tujuan 1.2 Latar Belakang

BAB 3 PROSEDUR DAN METODOLOGI. perhitungan LSI dan juga interface yang akan dibuat oleh penulis.

BAB 1 PENDAHULUAN. sangat luas. Sistem navigasi kendaraan, sistem komunikasi satelit di luar angkasa,

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN. Dalam suatu basis data, pendekatan model data relasional masih banyak dimanfaatkan untuk penyimpanan data dan informasi terhadap

PENDAHULUAN. I.1 Latar Belakang

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Permasalahan

BAB I PENDAHULUAN. Temu kembali informasi (information retrieval) adalah sebuah proses

BAB 3 ANALISIS DAN PERANCANGAN

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. Information retrieval (IR) adalah ilmu yang mempelajari pencarian

PENDAHULUAN. 1.1 Latar Belakang

Menggunakan Browser dan Mesin Pencari

BAB I PENDAHULUAN Latar Belakang Masalah

Implementasi Aljabar Vektor pada Sistem Temu Kembali Informasi untuk Customer Information

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II LANDASAN TEORI

Bab 3 Metode Penelitian

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

BAB III METODOLOGI PENELITIAN

BAB 2 TINJAUAN PUSTAKA

1. Pendahuluan. 1.1 Latar belakang

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

BAB II TINJAUAN PUSTAKA

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

Pengujian Kerelevanan Sistem Temu Kembali Informasi

BAB 1 PENDAHULUAN. terhadap peran sistem informasi dalam perusahaan sebagai bagian dari produktivitas.

Sistem Temu Kembali Informasi/ Information Retrieval IRS VS SI LAIN

BAB I PENDAHULUAN 1.1 Latar Belakang

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

STEMMING BAHASA INDONESIA SEBAGAI MEDIA BELAJAR SISWA SEKOLAH MENGGUNAKAN ALGORITMA PORTER

BAB II LANDASAN TEORI

BAB I PENDAHULUAN Latar Belakang

BAB III PERANCANGAN SISTEM

BAB 1 PENDAHULUAN Latar Belakang Masalah

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Search Engines. Information Retrieval in Practice

BAB III METODOLOGI PENELITIAN

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

BAB I PENDAHULUAN. Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Pesatnya

BAB 3 ANALISA DAN PERANCANGAN SISTEM

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB I Pendahuluan. 1 Launching Business on the Web, David Cook and Deborah Sellers, QUE, 1995, hal 12.

UKDW. Bab 1 PENDAHULUAN

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

BAB IV PENGUJIAN DAN ANALISIS HASIL PENGUJIAN

Bab III Analisis Sistem

Text Pre-Processing. M. Ali Fauzi

BAB 3 LANDASAN TEORI

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB III ANALISIS DAN PERANCANGAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB IV ANALISA DAN PERANCANGAN

BAB IV HASIL DAN UJI COBA

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

BAB III METODE PENELITIAN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III METODOLOGI PENELITIAN

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

BAB III METODOLOGI PENELITIAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Latihan 1: Mencari Alamat Web

BAB 3 LANDASAN TEORI

BAB III ANALISA DAN PERANCANGAN

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Text dan Web Mining. Budi Susanto Teknik Informatika UKDW Yogyakarta

Transkripsi:

BAB 3 ANALISA AN PERANCANGAN 3.1 Gambaran Umum Pada masa sekarang ini, proses pencarian dokumen dalam web seperti Google, Yahoo, dan sebagainya dilakukan dengan menginput query yang diinginkan pada kotak pencarian. Search engine akan melakukan pencarian dalam basis data yang dimiliki dengan cara mencocokkan query yang diinput dengan setiap dokumen yang terdaftar. Jika ditemukan minimal satu buah kata pada suatu dokumen yang sama dengan query yang diinput, maka dokumen ditampilkan pada hasil pencarian berupa sederetan link. Pada umumnya, hasil pencarian ditampilkan dalam bentuk link yang terdiri atas ratusan dokumen bahkan lebih. Urutan link dalam tampilan hasil pencarian didasarkan pada seberapa sering halaman web dikunjungi. Yang menjadi masalah bagi user adalah jumlah dari hasil pencarian yang cukup banyak tanpa adanya urutan relevansi yang jelas sehingga user cenderung untuk membuka satu per satu hasil pencarian untuk mendapatkan dokumen yang relevan dengan keinginan user, seperti yang dialami penulis saat melakukan pencarian dokumen yang berkaitan dengan topik penulisan skripsi ini. Perhitungan tingkat kekerabatan query dengan dokumen hasil pencarian belum dapat dilakukan oleh search engine yang umum ada saat ini. Hal ini memotivasi penulis untuk menggali suatu teknologi baru yang akan memberikan manfaat besar bagi user yang ingin melakukan pencarian dokumen dengan search engine dimasa mendatang. 31

3.2 Alternatif Pemecahan Masalah Klasifikasi dan visualisasi teks dengan algoritma Lingo memberikan hasil pencarian dokumen dalam search engine berupa pengelompokan sejumlah dokumen yang memiliki kekerabatan erat dan pengurutan dokumen dalam kelompok yang sama sesuai skor kekerabatan dengan kelompoknya. Kata klasifikasi direalisasikan dengan pengelompokan dokumen, dan kata visualisasi direalisasikan dengan melakukan visualisasi dalam urutan yang tepat sesuai dengan tingkat kekerabatan antara dokumen dan frase. Menurut pengamatan Penulis, masih sangat sedikit sekali search engine yang menerapkan teknologi pencarian dokumen dengan algoritma Lingo. Karena manfaat yang dirasakan sangat besar, maka penulis tertarik untuk menggali algoritma Lingo dalam melakukan pengembangan pencarian dokumen dengan search engine yang sedang marak digemari dalam dunia internet di seluruh dunia saat ini. Proses pencarian dokumen dalam web dengan algoritma Lingo tidak hanya menggunakan disiplin ilmu komputer seperti yang selama ini dipakai dalam search engine yang ada. Algoritma Lingo menggabungkan teknik komputer dan matematika dalam setiap tahapannya, di mana dalam bidang matematika digunakan ilmu tentang matriks yang berkaitan dengan disiplin ilmu dalam Aljabar Linear. Algoritma Lingo yang menggunakan disiplin ilmu matematika memberikan kelebihan tersendiri dalam proses pencarian dokumen dalam web. Seluruh dokumen yang ada direpresentasikan dalam bentuk satu buah matriks yang disebut dengan term document matrix yang menggambarkan kekerabatan antara seluruh dokumen yang dimiliki oleh mesin pencari. 32

Query sebagai sejumlah kata yang diinput oleh user direpresentasikan oleh algoritma Lingo dalam bentuk matriks yang disebut dengan phrase matrix, di mana baris merepresentasikan sejumlah kata dan kolom merepresentasikan sejumlah frase. Phrase matrix sebagai matriks yang mewakili seluruh frase yang ada, term document matrix mewakili seluruh dokumen yang dimiliki mesin pencari. Secara garis besar, perkalian term document matrix dengan phrase matrix menghasilkan sebuah matriks yang akan menggambarkan kekerabatan antara query yang diinput dengan seluruh dokumen yang ada. Skor diberikan untuk setiap kelompok untuk menggambarkan seberapa dekat hubungan antara kelompok dengan frase yang dicari, skor juga diberikan pada setiap dokumen untuk menggambarkan seberapa dekat hubungan suatu dokumen dengan kelompoknya. Skor didapat dari perhitungan lewat pengolahan term document matrix dan phrase matrix. Skor yang diperoleh, baik skor masing masing kelompok, maupun skor masing masing dokumen terhadap kelompoknya digunakan untuk mendapatkan tampilan hasil pencarian yang terurut mulai dari skor pencarian yang paling tinggi hingga paling rendah. ampilan dari hasil pencarian yang berurut sesuai skor yang didapat, mempermudah user dalam melihat hasil pencarian, karena tingkat kekerabatan dokumen dengan frase terepresentasi dalam bentuk nyata yaitu skor yang diperoleh. 33

3.3 Perancangan Program Aplikasi 3.3.1 Perumusan Objek Penelitian alam tahapan awal perancangan, penulis menemui Kepala Unit Pelayanan eknis perpustakaan Universitas Bina Nusantara untuk mengajukan usulan teknologi baru pencarian dokumen dalam web untuk dapat diaplikasikan lebih lanjut oleh AL Bina Nusantara, juga untuk mengajukan beberapa pertanyaan seputar sistem pencarian dokumen yang telah berjalan pada web milik perpustakaan Universitas Bina Nusantara. Kenyataan di lapangan belum mendukung untuk dijalankannya teknologi terbaru ini dikarenakan jumlah jurnal yang masih sedikit, sehingga belum perlu dilakukan proses pencarian jurnal, meski sebenarnya tetap disediakan oleh web milik perpustakaan Universitas Bina Nusantara, yaitu pencarian berdasarkan bidang jurnal, apakah eknologi Informasi, Matematika, dan sebagainya. Selain jumlah jurnal yang sedikit, kebanyakan jurnal pada web milik perpustakaan Universitas Bina Nusantara tidak saling memiliki keterkaitan satu sama lain, sehingga melakukan pengelompokan pada jurnal jurnal yang ada belum dapat direalisasikan. Oleh karena beberapa hambatan yang telah disebutkan, maka dalam melakukan pengembangan teknologi pencarian dokumen dalam web terbaru ini, penulis menggunakan data buatan, selain juga dengan pertimbangan bahwa analisa lebih mudah dilakukan pada data yang jumlahnya belum terlalu besar. Penulis tetap optimis bahwa suatu saat dengan berkembangnya jurnal yang ada di web milik perpustakaan Universitas Bina Nusantara, baik dari segi jumlah maupun keberagaman, juga disertai dengan penataan jurnal dengan cara yang baik, maka teknologi terbaru dengan algoritma Lingo ini dapat digunakan lebih lanjut dalam pengembangan web milik perpustakaan Universitas. Bina Nusantara. 34

3.3.2 ata Yang igunakan ipergunakan data buatan dalam program aplikasi yang dirancang dengan pertimbangan bahwa analisa lebih mudah dilakukan pada data yang jumlahnya belum terlalu besar. Perhitungan secara manual terhadap seluruh data yang ada dalam setiap tahapan algoritma Lingo telah dicantumkan pada teori sebagai contoh soal. Pencocokan hasil akan dilakukan pada setiap tahap algoritma Lingo antara program aplikasi dengan perhitungan manual yang telah dikerjakan. ilakukan analisa singkat terhadap hasil pencocokkan hasil perhitungan antara manual dan program aplikasi untuk membuktikan keakuratan hasil program aplikasi. isediakan 7 buah dokumen dengan ekstensi.txt di mana isi dari masing-masing dokumen sebagai berikut: 1: Large Scale Singular Value Computations 2 : Software for the Sparse Singular Value ecomposition 3 : Introduction to Modern Information Retrieval 4 : Linear Algebra for Intelligent Information Retrieval 5 : Matrix Computations 6 : Singular Value Analysis of Cryptograms 7 : Automatic Information Organization User melakukan input 2 buah frase ke dalam kotak pencarian. ua buah frase yang ingin dicari sebagai berikut: P 1 : Singular Value P 2 : Information Retrieval 35

Setelah melalui proses Stop Words Removal dan Stemming akan dihasilkan sejumlah kata terpilih dari seluruh kata yang berada pada 7 buah dokumen. iharapkan 5 buah kata yang terpilih sebagai berikut: 1 : Information 2 : Singular 3 : Value 4 : Computations 5 : Retrieval Hanya kata yang telah melalui Stop Words Removal dan Stemming tersebut yang akan diproses lebih lanjut dalam tahap algoritma Lingo selanjutnya. Setelah melalui setiap tahap algoritma Lingo, diharapkan pencarian dokumen akan mengembalikan hasil dalam bentuk pengelompokan dan urutan relevansi sebagai berikut: Information Retrieval [skor: 0.97] 3 : Introduction to Modern Information Retrieval 4 : Linear Algebra for Intelligent Information Retrieval 7 : Automatic Information Organization Singular Value [skor: 0.92] 2 : Software for the Sparse Singular Value ecomposition 6 : Singular Value Analysis of Cryptograms 1: Large Scale Singular Value Computations Others: [yang tidak ditandai kedalam kelompok manapun] 5 : Matrix Computations Pada kelompok Singular Value, dokumen 2 disebutkan terlebih dahulusebelum 6 dan 1, karena skor kekerabatan antara frase Singular Value 36

dengan dokumen 2 yang diperoleh lebih tinggi daripada skor frase Singular Value dengan 6 dan 1. 3.3.3 Perancangan Program Aplikasi Program aplikasi dirancang untuk memperkenalkan tahapan-tahapan Klasifikasi dan Visualisasi eks engan Algoritma Lingo hingga didapatkannya hasil pencarian yang relevan. User diminta untuk menginput query ke dalam kotak pencarian dan menekan satu persatu tombol secara berurut mulai dari atas ke bawah. Setiap tombol yang ditekan akan menampilkan informasi pada Papan Informasi sebelah kiri tombol mengenai tahapan dalam proses yang sedang dilalui yang ditandai dengan setiap tombol yang ada hingga penemuan hasil pencarian. Hasil pencarian sesuai dengan query yang diinput akan ditampilkan setelah penekanan tombol Penandaan File Ke Kelompok, berupa kelompok kelompok yang terbentuk beserta seluruh dokumen yang ada yang telah tergabung dalam kelompok tersebut dalam urutan relevansi yang jelas. Hanya ada satu layar pada program aplikasi yang terdiri atas sepuluh buah tombol. Berikut akan dijelaskan spesifikasi dari tombol tombol yang ada. a) ombol Baca Seluruh File menjalankan modul di mana dilakukan pembacaan terhadap seluruh dokumen, sekaligus dilakukan penyimpanan dalam sebuah array dinamis akan setiap kata yang dibaca, juga dari dokumen mana kata itu berasal. Papan Informasi akan menampilkan seluruh kata yang terdapat pada seluruh dokumen. 37

b) ombol Baca aftar Stop Words menjalankan modul di mana dilakukan pembacaan terhadap sebuah dokumen khusus yang menyimpan kata yang termasuk dalam daftar Stop Words. Papan Informasi akan menampilkan daftar kata yang termasuk daftar Stop Words. c) ombol Buang Kata Stop Words menjalankan modul di mana setiap kata yang tersimpan dari pembacaan file akan disaring dengan melakukan pembuangan kata dari array dinamis jika termasuk dalam daftar Stop Words. Papan Informasi akan menampilkan daftar seluruh kata yang dikumpulkan dari dokumen yang lolos setelah melalui proses Stop Words Removal. d) ombol Stemming menjalankan modul di mana setiap kata yang tersimpan dari pembacaan file yang telah lolos dalam penyaringan pertama, akan disaring kedua kalinya dengan mengubah kata menjadi kata dasarnya, misalkan kata cars menjadi kata car. e) ombol Buat Vektor okumen dan Normalisasi menjalankan modul yang membentuk term document matrix, sebuah matriks yang merepresentasikan seluruh dokumen, di mana kolom mendeskripsikan dokumen dan baris mendeskripsikan kata. Proses pembentukan term document matrix dapat dilakukan dengan memproses array dinamis berupa sejumlah kata dan dokumen asal kata tersebut yang telah melalui dua kali penyaringan. Sebelum dibentuknya term document matrix sebagai satu matriks yang mewakili seluruh dokumen, dibentuk terlebih dahulu vektor dokumen yang merepresentasikan masingmasing dokumen yang hanya terdiri dari satu buah kolom, di mana baris mewakili kata, dan untuk setiap dokumen digunakan urutan kata yang sama. Setelah vektor dokumen terbentuk, normalisasi dilakukan untuk mendapatkan 38

panjang vektor sama untuk setiap dokumen. Papan Informasi menampilkan seluruh vektor dokumen sebelum dan sesudah dilakukan normalisasi. f) ombol SV menjalankan modul SV (Singular Value ecomposition) yang memecah matriks A sebagai term document matrix menjadi 3 buah matriks, yaitu U,,V. di mana A U V =. Papan Informasi akan menampilkan matriks A dan U,,V yang merupakan hasil perhitungan SV dari term document matrix A. g) ombol Hitung Banyaknya Kelompok menjalankan modul yang menghitung jumlah kelompok yang akan terbentuk. ilakukan iterasi hingga mencapai kondisi perhentian yaitu q hitung > batas ambang kandidat label, di mana q berasal dari pengolahan terhadap nilai yang didapat dari diagonal matriks. Papan Informasi menampilkan matriks kembali dan proses iterasi dalam melakukan perhitungan jumlah kelompok yang akan terbentuk. h) ombol Buat Vektor Frase dan Normalisasi menjalankan modul di mana setiap frase yang diinput oleh user, masing-masingnya diolah menjadi sebuah vektor frase. Frase tersebut yang nantinya akan digunakan sebagai kelompok. Sebuah vektor frase terdiri atas 1 kolom dan sejumlah baris yang mewakili kata. Setelah vektor frase terbentuk, lakukan normalisasi untuk mendapatkan panjang yang sama pada setiap vektor frase. Papan Informasi menampilkan seluruh vektor frase sebelum dan sesudah dilakukan normalisasi. i) ombol Hitung eskripsi Kelompok menjalankan modul yang mengalikan transpos dari sejumlah k (jumlah kelompok) kolom dari matriks U hasil 39

perhitungan SV, dengan matriks frase P dengan rumus M = U P. Nilai k maksimum pada setiap baris M mendeskipsikan setiap kelompok yang akan terbentuk. Papan Informasi menampilkan matriks U kembali, U k, P, dan M sebagai hasil perkalian keduanya, juga kesimpulan yang dapat ditarik dengan melihat pada hasil yang diperoleh pada matriks M. j) ombol Penandaan File Ke Kelompok menjalankan modul yang mengalikan transpos dari matriks frase Q dengan matriks awal term document matrix A dengan rumus C = Q A. Matriks C menggambarkan tingkat kekerabatan antara frase sebagai baris dan dokumen sebagai kolom, sehingga pemilihan satu nilai yang maksimum dari setiap kolomnya menjadi penentu kelompok frase mana yang paling relevan untuk suatu dokumen. Papan informasi menampilkan matriks Q, A, dan C sebagai hasil perkalian keduanya, juga kesimpulan yang dapat ditarik dengan melihat pada hasil yang diperoleh pada matriks C yang merupakan hasil akhir pencarian. 40

Masukkan kata yang ingin dicari: Baca Seluruh File Baca aftar Stop Words Buang Kata Stop Words Stemming Buat Vektor okumen & Normalisasi Gambar 3.1 Rancangan tampilan layar Klasifikasi SV dan Visualisasi eks engan Algoritma Hitung Lingo Banyaknya Kelompok Buat Vektor Frase & Normalisasi Hitung eskripsi Kelompok Penandaan File Ke Kelompok Gambar 3.1 Rancangan ampilan Layar 3.3.4 iagram Alur ahapan Algoritma Lingo Berikut tahapan alur algoritma Lingo beserta diagramnya.. 1. imulai dari pembacaan kata yang terdapat seluruh file/dokumen untuk dilakukan proses Stop Words Removal dan Stemming. Ini semua merupakan sub bagian dari tahap Preprocessing. 2. Lakukan pengekstrakan kata yang sering muncul untuk mendapatkan kandidat kata. ahap selanjutnya lakukan perhitungan vektor dokumen, kemudian normalisasi. Vektor dokumen yang telah normal merupakan satuan kolom dari 41

term document matrix. Ini semua merupakan sub bagian dari tahap Frequent Phrase Extraction. 3. Langkah selanjutnya, a) Lakukan perhitungan SV (Singular Value ecomposition) untuk mendapatkan konsep abstrak dari term document matrix yang dilambangkan dengan matriks U. b) Hitung jumlah kelompok yang terbentuk dari pengolahan hasil perhitungan SV. c) Hitung vektor frase dan lakukan normalisasi. Vektor frase yang telah normal merupakan satuan kolom dari phrase matrix. d) Kemudian hitung deskripsi kelompok (label beserta skor dari kelompok) yang akan terbentuk dari pengolahan hasil SV dan phrase matrix dengan jumlah kelompok sesuai hasil perhitungan 3b. Ini semua merupakan sub bagian dari tahap Cluster Label Induction. 4. Lakukan penandaan file ke dalam kelompoknya masing-masing yang terbentuk dari pengolahan hasil perhitungan term document matrix dan phrase matrix. Proses ini merupakan sub bagian dari tahap Cluster Content iscovery. Baca seluruh file sejumlah kata Lakukan proses Stop Words Removal sejumlah kata Lakukan proses Stemming sejumlah kata 42

Gambar 3.2 iagram Alur Preprocessing Buat vektor dokumen document vector not normal Lakukan normalisasi vektor dokumen document vector normal Buat term document matrix term document matrix Gambar 3.3 iagram Alur Frequent Phrase Extraction Lakukan perhitungan SV U,, V matriks Hitung jumlah kelompok yang akan terbentuk dengan iterasi Buat vektor frase Lakukan normalisasi vektor frase Buat phrase matrix Hitung deskripsi kelompok jumlah kelompok = k phrase vector not normal phrase vector normal phrase matrix normal skor per kelompok Gambar 3.4 iagram Alur Cluster Label Induction 43

Penandaan file ke kelompok Hasil pencarian dokumen dalam bentuk pengelompokan dan urutan Gambar 3.5 iagram Alur Cluster Content iscovery Preprocessing Frequent Phrase Extraction Cluster Label Induction Cluster Content iscovery Gambar 3.6 iagram Alur ahapan Algoritma Lingo 44