INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

dokumen-dokumen yang mirip
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

INTEGRASI PERINGKAS DOKUMEN OTOMATIS DENGAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) PADA PERINGKAS DOKUMEN OTOMATIS UNTUK PROSES CLUSTERING DOKUMEN

KOMBINASI TEKNIK CHI SQUARE DAN SINGULAR VALUE DECOMPOSITION UNTUK REDUKSI FITUR PADA PENGELOMPOKAN DOKUMEN

PENGKLUSTERAN DOKUMEN TEKS HASIL PERINGKAS DOKUMEN OTOMATIS YANG MENGGUNAKAN METODE SELEKSI FITUR DAN LATENT SEMANTIC ANALYSIS (LSA)

LAPORAN AKHIR PENELITIAN DOSEN PEMULA

LAPORAN KEMAJUAN PENELITIAN DOSEN PEMULA

BAB 3 LANDASAN TEORI

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB I PENDAHULUAN 1.1. Latar Belakang

Perangkingan Dokumen Berbahasa Arab Menggunakan Latent Semantic Indexing

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

BAB III METODOLOGI PENELITIAN

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB II TINJAUAN PUSTAKA

@UKDW BAB 1 PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB III METODOLOGI PENELITIAN

BAB I PENDAHULUAN Latar Belakang

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

BAB II TINJAUAN PUSTAKA

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Peringkasan Teks Otomatis Pada Artikel Berita Kesehatan Menggunakan K-Nearest Neighbor Berbasis Fitur Statistik

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

BAB I PENDAHULUAN I-1

Pencarian Semantik Dokumen Berita Menggunakan Essential Dimension of Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency

Pengelompokan Dokumen Petisi Online Di Situs Change.org Menggunakan Algoritme Hierarchical Clustering UPGMA

IMPLEMENTASI CROSS METHOD LATENT SEMANTIC ANALYSIS UNTUK MERINGKAS DOKUMEN BERITA BERBAHASA INDONESIA

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION

PENGARUH SINGULAR VALUE DECOMPOSITION TERHADAP METODE METODE CLUSTERING

BAB 2 TINJAUAN PUSTAKA

BAB III METODELOGI PENELITIAN

PERINGKASAN TEKS MODEL GRAF PADA SINGLE DOKUMEN DENGAN METODE SPARSE NON NEGATIVE MATRIX FACTORIZATION

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB II TINJAUAN PUSTAKA

Studi Awal Peringkasan Dokumen Bahasa Indonesia Menggunakan Metode Latent Semantik Analysis dan Maximum Marginal Relevance

BAB II LANDASAN TEORI

1.5 Metode Penelitian

DETEKSI KEMIRIPAN TOPIK PROPOSAL JUDUL TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN LATENT SEMANTIC ANALYSIS DI STMIK BUMIGORA MATARAM

BAB IV PREPROCESSING DATA MINING

BAB I PENDAHULUAN Latar Belakang

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

SEMANTIC CLUSTERING DAN PEMILIHAN KALIMAT REPRESENTATIF UNTUK PERINGKASAN MULTI DOKUMEN

PENGKLASIFIKASIAN DOKUMEN BERBAHASA INDONESIA DENGAN PENGINDEKSAN BERBASIS LSI Achmad Ridok 1, Indriati 2

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

Analisis dan Implementasi Short Text Similarity dengan Metode Latent Semantic Analysis Untuk Mengetahui Kesamaan Ayat al-quran

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

BAB II LANDASAN TEORI

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

4 HASIL DAN PEMBAHASAN

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

PENENTUAN LIRIK LAGU BERDASARKAN EMOSI MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI)

PERINGKASAN TEKS BERITA SECARA OTOMATIS MENGGUNAKAN TERM FREQUENCY INVERSE DOCUMENT FREQUENCY (TF-IDF) SKRIPSI DANDUNG TRI SETIAWAN

Pengelompokan Dokumen Menggunakan Dokumen Berlabel dan Tidak Berlabel Dengan Pendekatan Modified Heuristic Fuzzy Co-Clustering

BAB 3 LANDASAN TEORI

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

PENGUKURAN KEMIRIPAN DOKUMEN DENGAN MENGGUNAKAN TOOLS GENSIM

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB 1 PENDAHULUAN. Latar Belakang

Matrix Factorization. Machine Learning

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

Descriptor Clustering SURF for Bag of Visual Words Representation in Fingerprint Images Using K-MEANS and Hierarchical Agglomerative Clustering

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

PENDAHULUAN. 1.1 Latar Belakang

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

IMPROVEMENT OF SENTENCES SCORING BASED NEWS FEATURE FOR NEWS SUMMARY ON SOCIAL MEDIA ISSUES

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

BAB III METODE PENELITIAN

RANCANG BANGUN APLIKASI PERINGKAS TEKS OTOMATIS ARTIKEL BERBAHASA INDONESIA MENGGUNAKAN METODE TERM FREQUENCY INVERSE DOCUMENT FREQUENCY

Rancang Bangun Sistem Peringkasan Teks Multi-Dokumen

PENERAPAN VECTOR SPACE MODEL UNTUK PERINGKASAN KOMENTAR ANGKET MAHASISWA

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

PENENTUAN EMOSI BERDASARKAN LIRIK LAGU MENGGUNAKAN SISTEM TEMU KEMBALI INFORMASI DENGAN METODE LATENT SEMANTIC INDEXING (LSI)

SISTEM TEMU-KEMBALI INFORMASI DALAM DOKUMEN (PENCARIAN 10 KATA KUNCI DI EJOURNAL BSI)

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PRESENTASI TUGAS AKHIR KI091391

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

ANALISIS SENTIMEN PADA ULASAN BUKU BERBAHASA INGGRIS MENGGUNAKAN INFORMATION GAIN DAN SUPPORT VECTOR MACHINE

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Transkripsi:

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com 3 Manajemen Informatika, Univ. Dian Nuswantoro Email: amfa_dns@yahoo.com ABSTRAK Clustering dokumen merupakan proses pengelompokan dokumen yang memiliki kesamaan topik, clustering dokumen memudahkan pengguna menemukan dokumen yang diinginkan. Dalam proses clustering dokumen, dokumen direpresentasikan menggunakan Vector Space Model (VSM). Masalah dalam VSM adalah matrik term-dokumen biasanya sangat jarang (banyak mengandung angka 0 dalam term-dokumen matrik) dan juga mempunyai dimensi tinggi, sehingga masalah-masalah ini dapat mengurangi kinerja clustering dokumen. Oleh karena itu diperlukan suatu metode untuk bisa mengurangi dimensi term-dokumen dan menghilangkan term yang bernilai 0 tersebut sehingga dapat meningkatkan kinerja proses clustering. Dalam penelitian ini diusulkan model peringkas dokumen otomatis sebagai feature reduction pada proses clustering dokumen. Tujuan dari penelitian ini adalah untuk meningkatkan akurasi dari clustering dokumen dengan mengintegrasikan peringkas dokumen otomatis sebagai feature reduction. Ada beberapa tahapan clustering dalam penelitian ini, yaitu preprocessing, peringkas dokumen otomatis, pembobotan kata, feature selection, feature transformation dan algoritma clustering. Tahap Preprocessing yang digunakan dalam penelitian ini adalah tokenization, stopword, stemming dan pemenggalan kalimat. Proses peringkas dokumen otomatis ditujukan untuk penyeleksian kalimat agar didapatkan ringkasan teks yang diperoleh dengan menyajikan kembali bagian tulisan yang dianggap topik utama tulisan dengan bentuk yang lebih disederhanakan baru kemudian selanjutnya dilakukan proses pembobotan kata, feature selection, feature transformation dan clustering. Hasil penelitian menunjukkan bahwa integrasi peringkas dokumen otomatis sebagai feature reduction dapat meningkatkan kinerja clustering dokumen sampai dengan 91,7 %, mengalami peningkatan dari tingkat akurasi 89,6 % untuk proses feature reduction tanpa menggunakan peringkas dokumen otomatis. Kemudian pengaruh Integrasi peringkas dokumen otomatis sebagai feature reduction untuk waktu komputasi yang dibutuhkan adalah pada % feature selection yang semakin kecil integrasi peringkas dokumen otomatis sebagai feature reduction membutuhkan tambahan waktu komputasi tersendiri, akan tetapi pada proporsi feature selection yang semakin besar, % peringkas dokumen otomatis dapat menurunkan waktu komputasi yang digunakan..kata kunci: Text mining; Clustering Dokumen; Peringkas Dokumen Otomatis. 1. Latar Belakang Clustering dokumen adalah proses pengelompokan dokumen yang memiliki kesamaan topik, clustering dokumen memudahkan pengguna menemukan dokumen yang diinginkan [1]. Dengan semakin banyaknya volume dokumen yang ada, dapat menyebabkan suatu permasalahan pada clustering dokumen yaitu besarnya matrik term-dokumen yang bisa menyebabkan proses kerja clustering dokumen tidak optimal. Hal ini bisa terjadi karena adanya data yang tidak relevan dan redundan. Oleh karena itu diperlukan suatu metode untuk bisa mengurangi dimensi dokumen tersebut sehingga bisa meningkatkan kinerja proses clustering dokumen tanpa mengurangi tingkat akurasi hasil clustering [2] [3]. Ringkasan dokumen dapat diartikan sebagai proses dari pembuatan intisari informasi terpenting dari sumber untuk menghasilkan versi yang lebih ringkas, terdapat dua tipe pembuatan suatu ringkasan yang mengambil bagian terpenting dari teks aslinya yaitu abstak dan ekstrak. Abstrak menghasilkan sebuah interprestasi terhadap teks aslinya, dimana sebuah kalimat akan ditransformasikan menjadi kalimat yang lebih singkat, sedangkan ekstraksi merupakan ringkasan teks yang diperoleh dengan menyajikan kembali bagian tulisan yang dianggap topik utama tulisan dengan bentuk yang lebih disederhanakan [4]. Dalam penelitian ini akan digunakan fitur ringkasan ekstrak sebagai model peringkas dokumen otomatis. Sebagai pembuktian akan dibandingkan akurasi proses clustering menggunakan feature reduction standar dengan proses clustering yang menggunakan peringkas dokumen otomatis sebagai feature reduction. INFRM 145

2. Dasar Teori 2.1 Clustering Dokumen Algoritma yang umum digunakan pada proses clustering dokumen dan juga yang akan digunakan dalam penelitian adalah algoritma K-means, Dasar algoritma K-means dapat disusun menjadi 4 tahap sebagai berikut: 1. Inisialisasi titik pusat Cluster 2. Masukan setiap dokumen ke cluster yang paling cocok berdasarkan ukuran kedekatan dengan centroid / titik tengah cluster. 3. Setelah semua dokumen masuk ke cluster. Hitung ulang centroid cluster berdasarkan dokumen yang berada di dalam cluster tersebut. 4. Jika centroid tidak berubah (dengan treshold tertentu) maka stop. Jika tidak, kembali ke langkah 2. Sim(d x,d y ) = (1) 2.2 Preprocessing Preprocessing merupakan tahapan untuk mengubah struktur isi dari suatu dokumen kedalam format yang sesuai berupa kumpulan term atau kata untuk diproses kedalam algoritma clustering [4], dalam penelitian ini digunakan 4 tahapan preprocessing yaitu: Tokenization, Stopword, Stemming dan Sentence splitting. 2.3 Document Representation Vector Space Model VSM mengubah koleksi dokumen kedalam matrik term-document [2]. Pada gambar 4.3.1. Dimana d adalah dokumen dan w adalah bobot atau nilai untuk setiap term. A mxn = Gambar 1. Matrik Term-dokumen 2.4 Term Weighting (TFIDF) TF adalah banyaknya kemunculan suatu term dalam suatu dokumen, IDF adalah perhitungan logaritma antara pembagian jumlah total dokumen dengan cacah dokumen yang mengandung suatu term, dan TFIDF adalah perkalian antara TF dengan IDF. Dalam penelitian ini digunakan TFIDF sebagai metode term weighting. IDF = log (2) TFIDF(t) = TF * log (3) 2.5 Similiarity Measure Pada Vector Space Model Dokumen direpresentasikan dalam bentuk d = {w 1, w 2, w 3,, w n } dimana d adalah dokumen dan w adalah nilai bobot setiap term dalam dokumen. Dalam penelitian ini untuk menghitung persamaan antar dokumen akan mengukur jarak antar 2 dokumen d i dan d j, dengan menggunakan rumus cosines similiarity. similiarity (d i, d j ) = cosines = (4) 2.6 Teknik Dimension Reduction 2.6.1 Feature Selection Disebutkan bahwa hasil dari clustering teks mempunyai ketergantungan dengan kesamaan dokumen. sehingga, kontribusi dari sebuah term dapat diartikan sebagai kontribusi terhadap kesamaan dokumen. TC(t) = (5) Di mana, f(t,d) merupakan bobot tf*idf dari term t di dokumen d. INFRM 146

2.6.2 Singular Value Decomposition Latent Semantic Indexing (LSI) melalui metode Singular Value Decomposition (SVD) mengurai matrik termdocument menjadi 3 matrik U, S dan V yang memiliki dimensi lebih kecil. A= USV T (6) Dimana U merupakan matrik term yang berdimensi m x k, S adalah matrik diagonal yang berisi eigen value berdimensi kxk dan V T adalah matrik dokumen yang memiliki dimensi k x n. mxn mxk kxk kxn Gambar 2. Dekomposisi truncated SVD. Truncated SVD menggunakan pendekatan rank-k untuk mengurangi SVD [5], Dalam penelitian ini menggunakan peringkat-k pembulatan nilai akar dari jumlah 150 dokumen yang diproses, yaitu pembulatan dari = 12. 2.7 Feature-Based Automatic Summarization 6 fitur tahapan yang digunakan dalam penelitian ini adalah sebagai berikut: Gambar 3. Enam Tahap Peringkas Dokumen Otomatis. 2.8 Evaluation Measure Recall dan precision kategori i dalam cluster j diperoleh dari persamaan berikut : Recall (i,j) = (7) Precision (i,j) = (8) Dinama n ij merupakan jumlah dokumen kategori i dalam cluster j, n i adalah jumlah dokumen dalam kategori i dan n j merupakan jumlah dokumen dalam cluster j. kemudian untuk menghitung F-measure yang digunakan adalah persamaan berikut: F(i,j) = (9) Secara keseluruhan, rata-rata dari F-measure dapat dihitung dengan persamaan berikut: INFRM 147

F = max j=1,,k F(i,j) (10) 3. Metode yang Diusulkan Gambar 4. Model yang diusulkan. 4. HASIL DAN PEMBAHASAN 4.1 Akurasi Dari hasil penelitian yang dilakukan dapat dibuktikan bahwa integrasi peringkas dokumen otomatis sebagai feature reduction dapat meningkatkan akurasi hasil clustering. Tingkat akurasi menggunakan peringkas dokumen otomatis yang diintegrasikan sebagai feature reduction mencapai 91,7 % yang diperoleh pada tingkat peringkas dokumen otomatis 30 % dan feature selection 20 %, dibandingkan dengan feature selection 20 % tanpa menggunakan peringkas dokumen otomatis yang hanya mencapai tingkat akurasi 89,6 %. Dari gambar 5 juga dapat dilihat peningkatan akurasi untuk % feature selection yang lain, akan tetapi pada proporsi 80 % feature selection integrasi peringkas dokumen otomatis mengalami penurunan tingkat akurasi. INFRM 148

Gambar 5. Hasil kinerja proses clustering dokumen. 4.2 Waktu Waktu rata-rata yang diambil diukur mulai dari proses preprocessing sampai dengan hasil clustering diperoleh. Gambar 6 menunjukan bahwa pada % feature selection yang semakin kecil feature reduction yang diintegrasikan dengan peringkas dokumen otomatis membutuhkan tambahan waktu komputasi tersendiri, dari percobaan yang dilakukan untuk 20% feature selection terdapat peningkatan waktu komputasi dari percobaan clustering tanpa peringkas dokumen otomatis, menggunakan peringkas dokumen otomatis dengan proporsi 30%, 50% dan 80%. Akan tetapi pada proporsi feature selection yang semakin besar, % peringkas dokumen otomatis dapat menurunkan waktu komputasi yang ada, pada percobaan 60% dan 80% feature selection dapat dilihat bahwa intergrasi peringkas dokumen otomatis sebagai feature reduction dapat mengurangi rata-rata waktu komputasi yang dibutuhkan. 5. KESIMPULAN Gambar 6. Waktu proses clustering dokumen. Integrasi peringkas dokumen otomatis sebagai feature reduction pada proses clustering dokumen dapat meningkatkan tingkat akurasi hasil clustering. Hasil penelitian menunjukkan bahwa integrasi peringkas dokumen otomatis sebagai feature reduction tersebut dapat meningkatkan kinerja clustering dokumen sampai dengan 91,7 %, mengalami peningkatan dari tingkat akurasi 89,6 % untuk proses feature reduction standar tanpa menggunakan peringkas dokumen otomatis dan 87,73 % tingkat akurasi clustering standar. Pengaruh Integrasi peringkas dokumen otomatis sebagai feature reduction untuk waktu komputasi yang dibutuhkan adalah pada % feature selection yang semakin kecil integrasi peringkas dokumen otomatis sebagai feature reduction membutuhkan tambahan waktu komputasi tersendiri, akan tetapi pada proporsi feature selection yang semakin besar, % peringkas dokumen otomatis dapat menurunkan waktu komputasi yang digunakan. INFRM 149

DAFTAR PUSTAKA [1] H. Al-mubaid and A.S. Umair, "A new text categorization technique using distributional clustering and learning logic," IEEE Trans. Knowl. Data Eng, vol. 18, 2006, pp. 1156-1165. [2] R. Peter, S. G, D. G, & S. Kp, "Evaluation of SVD and NMF Methods for Latent Semantic Analysis," InternationalJournal of Recent Trends in Engineering, vol. 1, 2009, pp. 308-310. [3] Rakesh Peter, Shivapratap G, Divya G & Soman KP, Evaluation of SVD and NMF Methods for Latent Semantic Analysis, International Journal of Recent Trends in Engineering,Vol 1, No. 3, May 2009. [4] Ladda Suanmali, Naomie Salim & M Salem Binwahlan, Automatic text summarization using feature based fuzzy extraction, Jurnal teknologi Maklumat jilid 20. Bil 2, 2008. [5] Q. Yang, "Support vector machine for customized email filtering based on improving latent semantic indexing," Proceedings of the Fourth International Conference on Machine Learning and Cybernetics, vol. 6, 2005, pp. 3787-3791. [6] Hussam Dahwa Abdulla, Martin Polovincak & Vaclav Snasel, Using a Matrix Decomposition for Clustering Data, International Conference on Computational Aspects of Social Networks 2009 IEEE. [7] Wu, R., Improved K-Modes Clustering Method Based on Chi-square Statistics, International Conference on Granular Computing. doi: 10.1109/GrC.2010.66. IEEE 2010. INFRM 150