Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means

Transkripsi

1 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Vol. 2, No. 10, Oktober 2018, hlm Pengelompokan Artikel Berbahasa Indonesia Dengan Menggunakan Reduksi Fitur Information Gain Thresholding Dan K-Means Novia Agusvina 1, Indriati 2, Nurudin Santoso 3 Program Studi Teknik Informatika, 1 noviaagusvina@student.ub.ac.id, 2 indriati.tif@ub.ac.id, 3 nurudin.santoso@ub.ac.id Abstrak Semakin banyaknya artikel yang tersebar di situs internet, menyulitkan pengguna dalam menemukan artikel yang diinginkan. Salah satu penyedia layanan artikel online adalah Kompas.com. Untuk menghadapi persaingan antar industri media massa, langkah yang dilakukan Kompas.com adalah memberikan fitur yang memudahkan pengguna, seperti fitur rekomendasi artikel terkait. Namun, dalam penerapannya Kompas.com masih kurang maksimal sehingga tetap kalah dengan media massa online lainnya. Pada penelitian ini, peneliti mengimplementasikan metode reduksi fitur Information Gain Thresholding dan K-Means untuk membuat kelompok artikel terkait. Tujuan dari penelitian ini adalah untuk memperbaiki sistem artikel terkait dari Kompas.com. Dalam pengimplementasian digunakan bahasa java. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid, pengelompokan dapat dilakukan. Hasil menunjukan bahwa pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan nilai kemurnian data jauh lebih baik dibandingkan tanpa reduksi fitur. Kata kunci: artikel online, reduksi fitur, information gain thresholding, pengelompokan, K-Means Abstract The increasing number of articles spread on the internet site, making it difficult for users to find the desired article. One of the online article service providers is Kompas.com. To face the competition among mass media industry, Kompas.com step is to provide features that facilitate the user, such as features related article recommendations. However, in its application Kompas.com is still less than the maximum so it remains inferior to other online mass media. In this study, researchers implemented a method of reducing the features of Information Gain Thresholding and K-Means to create a group of related articles. The purpose of this study is to improve the system related articles from Kompas.com. In implementing the use of java language. In the early stages of preprocessing to reduce the disturbance in the data, then the feature reduction is done to reduce the features used for faster process, then weighted as the basis for calculating the distance between documents, after finding the distance of the initial distance or centroid, grouping can be done. The results show that the clustering of articles using Information Gain Threshold and K-Means is good enough, has criteria of silhouette coefficient of and a purity measure of 0.75 with 3 clusters and 0.04 threshold limit, this conclude that it gives better purity compared to without feature reduction. Keywords: online articles, feature reduction, information gain thresholding, clustering, K-Means 1. PENDAHULUAN Artikel online merupakan salah satu sumber informasi yang umum dan dapat dengan mudah ditemukan di situs internet (Lonnberg dan Yregard, 2013). Salah satu penyedia layanan artikel online adalah Kompas.com. Untuk menghadapi persaingan antar industri media massa, langkah yang dilakukan Kompas.com adalah memberikan fitur yang memudahkan pengguna, seperti fitur rekomendasi artikel terkait. Fakultas Ilmu Komputer Universitas Brawijaya 3822

2 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3823 Fitur artikel terkait merupakan salah satu penerapan dari konsep pengelompokan (Tan, dkk, 2006). Dalam pengelompokan artikel terkait, Kompas.com menggunakan tipe soft clustering dimana setiap objek dapat memiliki kelompok lebih dari satu satu (Zade, dkk, 2017). Menurut Ghosh dan Dubay (2013) metode Fuzzy c-means, salah satu metode soft clustering, sebenarnya tidak lebih baik dari metode hard clustering, yaitu k-means. Walaupun sebenaranya metode tersebut mampu menangani data yang tidak lengkap dan informasi campuran, namun hasil pengelompokan dan waktu komputasi tidak lebih baik dari metode hard clustering. Pada penelitian ini, peneliti ingin memperbaiki fitur artikel terkait pada Kompas.com dengan metode hard-clustering. Penelitian mengenai pengelompokan artikel sendiri sebenarnya sudah banyak dilakukan. Salah satunya adalah penelitian oleh Zade, dkk, dimana dalam penelitiannya digunakan objek berupa dokumen. Hasil dari penelitian tersebut yaitu ukuran dokumen yang besar memberi keuntungan pada metode K-Means untuk meningkatkan ukuran kesamaan. Metode K- Means adalah metode untuk mengelompokan objek sebanyak k partisi (Zade, dkk, 2017). Sedangkan dokumen yang besar berarti memiliki fitur kata yang banyak. Oleh karena itu dibutuhkan seleksi fitur untuk mengurangi dimensi fitur untuk meningkatkan kinerja algoritma (Maulida, 2016). Seleksi fitur sendiri merupakan teknik reduksi dimensi yang digunakan untuk memperkecil matrik data namun masih memperhatikan kepentingan kata. Penelitian mengenai penambahan reduksi fitur pada pengelompokan dokumen pernah diteliti oleh Dewi (2013). Dalam penelitian tersebut didapatkan hasil yang berbeda antara pengelompokan dokumen hanya dengan metode K-Means dengan pengelompokan dengan Metode K-Means yang dibantu seleksi fitur DF- Threshold. Dengan adanya reduksi fitur terdapat pengaruh terhadap fitur yang dipilih dan keragaman dokumen. Namun tidak menutup kemungkinan bahwa penggunan metode reduksi fitur yang lain akan menghasilkan akurasi yang berbeda (Dewi, 2013). Berdasarkan uraian diatas maka pada penelitian ini akan digunakan metode K-Means untuk pengelompokan artikel dan memanfaatkan teknik reduksi fitur Information Gain Thresholding. Alasan dari penggunaan metode K-Means untuk pengelompakan yaitu karena metode K-Means terbukti akurat (Zade, dkk, 2017; Subandi, 2014). Seadngkan penambahan metode information gain thresholding adalah agar fitur yang diproses dapat dikurangi dan komputasi menjadi lebih cepat (Dewi, 2013). Diharapkan hasil dari pengelompokan dapat digunakan industri media massa sebagai referensi pembangunan sistem artikel terkait. 2. LANDASAN KEPUSTAKAAN 2.1. Pengelompokan (Clustering) Pengelompokan adalah proses mengelompokan objek yang memiliki kesamaan ke dalam suatu kelompok yang memainkan peran yang penting bagi manusia untuk menganalisis dan menggambarkan kumpulan objek tersebut (Tan,dkk, 2006). Menurut Tan, dkk (2006) kegunaan dari pengelompokan adalah untuk peringkasan, kompresi, dan menemukan objek terdekat. Pengelompokan dibagi menjadi beberapa tipe, seperti : Hirarki dan Partisi Eksklusif, overlapping, dan fuzzy Lengkap dan Sebagian Pengelompokan memiliki hubungan yang erat dengan masalah pengurangan dimensi. Data berdimensi tinggi sering kali menantang untuk dianalisis, karena semakin meningkatnya keberagamanan data. Metode klastering dapat dilihat sebagai perpaduan antara metode seleksi fitur / dimensionality reduction dengan pengelompokan (Aggarwal dan Reddy, 2014) Text Mining Text mining memiliki definisi menggali data berupa teks yang sumbernya berupa dokumen untuk mencari kata kata yang dapat mewakili dokumen. Ilmu Text Mining digunakan untuk mengubah kumpulan teks menjadi numerik sehingga dapat dikomputasikan. Teknik ini disebut sebagai teknik pre-processing (Sari dan Puspaningrum, 2013) Pre-processing Pre-processing text merupakan tahapan awal dalam text mining dimana tujuannya adalah melakukan pembersihan terhadap kata kata yang tidak penting sehingga kata yang berkualitas dapat diproses menggunakan algoritma tertentu (Sanjaya dan Absar, 2015). Tahapan pre-

3 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3824 processing meliputi tokenisasi, stopword removal, dan stemming (Zaini, dkk, 2017). Tokenisasi adalah proses memotong kalimat menjadi potongan- potongan kata, yang disebut token, dan pada saat yang sama karakterkarakter tertentu, seperti tanda baca dihapus (Manning, 2008). Sedangkan Stopword Removal adalah pembuangan kata yang sering muncul tapi tidak memiliki makna yang penting (Kogilavani dan Balasubramani, 2010). Selanjutnya tahapan terkahir yaitu stemming. Stemming merupakan teknik untuk mengubah token menjadi kata dasar. Kata dasar biasanya digunakan di beberapa artikel dengan berbahagai imbuhan yang bisa jadi sama atau berbeda (Zaini, dkk, 2017) Pembobotan TF-IDF Term Frequency dan Inverse Document Frequency (TF-IDF) merupakan pembobotan yang sering digunakan dalam penelusuran informasi dan text mining (Turney dkk, 2010). Mencari nila term-frequency melalui persamaan 1 Tf t,d = Log tf (1) Dimana setiap variable dijelaskan sebagai berikut : tf : term frekuensi atau banyaknya kata pada dokumen Tft,d : term frekuensi atau banyaknya kata t pada dokumen d atau pembobotan local Mencari nilai inverse documentfrequency melalui persamaan 2 idf t = 10 log n /df t (2) Idft : inverse documentfrequency atau pembobotan global n : banyaknya dokumen dft : banyaknya dokumen yang memiliki kata t. Dari persamaan 1 dan persamaan 2 baru bisa ditentukan nilai bobotnya (Wt,d) dengan mengalikan kedua persamaan sehingga menjadi persamaan 3 W t,d = tf t,d x idf t (3) Dimana: Tftd : term frekuensi atau banyaknya kata pada dokumen atau pembobotan local Idft : inverse document frequency atau pembobotan global Wt,d : nilai bobot akhir kata Kemudian lakukan normalisasi pada bobot yang telah didapatkan dengan menggunakan persamaan 4. W t,d n t=1(w t,d ) 2 Dimana : n : banyaknya kata t : iterasi kata ke- Wt,d : nilai bobot akhir kata (4) Pembobotan tf-idf digunakan untuk mengukur seberapa penting suatu kata dalam suatu dokumen. Untuk perhitungan tf-idf pada dapat dilihat pada implementasi Cosine Similarity Dalam tahap ini kemiripan dokumen skripsi dengan setiap dokumen yang ada dihitung. Hitung kemiripan vektor query Q dengan setiap dokumen yang ada. Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumus di tuliskan pada persamaan 5. cos θ ki = k (d ik d jk ) (5) Dimana diketahui nilai variabel dari persamaan 5 k : jumlah dokumen d ik d jk : panjang dokumen ke i : panjang dokumen ke query cosθkj : kedekatan dokumen yang dicari 2.3. Data Mining Information Gain Thresholding Information Gain (IG) dari suatu term diukur dengan menghitung jumlah bit informasi yang diambil dari prediksi kategori dengan ada atau tidaknya term dalam suatu dokumen (Maulida, dkk, 2016). Information Gain atau biasa disebut IG adalah salah satu atribut pengukuran seleksi data untuk memilih tes pada atribut. Secara matematis dituliskan pada persamaan 6.

4 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3825 Entropy(S) = - Σ S i s log S i s (6) Kemudian dari rumus entropy diatas dapat dicari nilai Information Gain dengan persamaan 7. InfoGain (S,A) = (7) Entropy(S) - Σ Sv Sv Value(A) Entropy(Sv) Dimana S adalah jumlah seluruh fitur, A adalah kategori, Sv adalah jumlah sampel untuk nilai v, v adalah nilai yang mungkin untuk kategori A, Si adalah fitur ke I, dan Value(A) adalah himpunan nilai-nilai yang mungkin untuk kategori A. Fitur yang dipilih adalah fitur dengan nilai Information Gain yang tidak sama dengan nol dan lebih besar dari suatu nilai threshold tertentu. Ide dibalik Information Gain untuk memilih fitur adalah menyatakan fitur dengan informasi yang paling signifikan terhadap kategori K-Means Metode k-means adalah algoritma pembelajaran tanpa data latih. Metode ini paling sederhana dan paling banyak digunakan. Prosedur pengelompokan dari metode ini adalah mendefiniskan kelompok k dan satu k center untuk setiap cluster. (Zade, dkk, 2017) Algoritma K-Means merupakan algoritma untuk mengelompokan dokumen berdasarkan jarak terdekat. Menurut Adiningsih (2007), tahap penyelesaian algoritma K-Means adalah sebagai berikut: 1. Menentukan K buah titik yang merepresentasikan obyek pada setiap cluster (centroid awal). 2. Menetapkan setiap objek pada cluster dengan posisi centroid terdekat. Adapun cara untuk menentukan jarak yaitu dengan menggunakan persamaan Jika semua objek sudah dikelompokkan maka dilakukan perhitungan ulang dalam menentukan centroid yang baru. 4. Untuk menentukan centroid baru persamaan yang digunakan dituliskan pada persamaan 8. Ci = x i+ +x n x Keterangan: (8) x1 = nilai data record ke-1 x2 = nilai data record ke-2 Σx = jumlah data record 5. Ulangi langkah 2 dan 3 sampai centroid tidak berubah 3. METODE PENELITIAN Metodologi penelitian yang dilakukan dalam Skripsi dengan judul Pengelompokan Artikel Berbahasa Indonesia dengan Reduksi Fitur Information Gain Thresholding dan K-Means dijelaskan melalui beberapa tahapan yang diilustrasikan dalam diagram blok metode penelitian sebagai berikut Gambar 1 Diagram Blok Metode Penelitian Berdasarkan bagan di atas, tahapan penelitian skripsi dapat dijelaskan sebagai berikut: 1. Melakukan studi literatur terkait metode dan teknik yang digunakan dalam penelitian 2. Melakukan analisa terhadap kebutuhan sistem. 3. Melakukan perancangan sistem 4. Melakukan implementasi berdasarkan dari hasil analisa dan perancangan yang telah dilakukan sebelumnya. Melakukan pengujian terhadap sistem, dengan menggunakan parameter parameter tertentu, untuk mengetahui tingkat akurasi sistem. 3.1 Teknik Pengumpulan Data Metode pengumpulan data yang

5 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3826 digunakan dalam penelitian ini merupakan metode studi dokumen, dimana pengumpulan data tidak ditujukan langsung kepada subjek penelitian melainkan dengan meneliti berbagai macam data yang berguna untuk bahan analisis. Sedangkan data yang digunakan dalam penelitian ini merupakan data primer. Data primer adalah data yang didapatkan secara langsung dengan cara mengamati objek penelitian. Pengumpulan data primer dilakukan dengan mengamati beberapa situs artikel online, salah satunya adalah Kompas.com. Hal ini dilakukan untuk mendapatkan data berupa artikel berita. 3.2 Metode yang Digunakan Penelitian ini menggunakan teknik information gain thresholding untuk reduksi fitur dan metode k-means untuk pengelompokan dokumen. Metode reduksi fitur dan metode pengelompokan yang digunakan dala penelitian ini sudah dapat menyelesaikan beberapa permasalahan. Teknik information gain thresholding mampu menyelesaikan masalah seperti terlalu banyaknya fitur yang digunakan dalam suatu penelitian dan untuk metode k- means sendiri sudah banyak digunakan untuk menyelesaikan masalah pengelompokan nonhirarki. Teknik dan metode ini akan diimplementasi dalam bahasa Java dalam penelitian ini. Karena dalam penelitian ini program yang dikembangakan merupakan program berbasis desktop. 3.3 Kebutuhan Sistem Dalam pembuatan aplikasi pengelompokan artikel berbahasa indonesia dengan reduksi fitur information gain thresholding dan k-means memerlukan beberapa kebutuhan baik berupa kebutuhan perangkat lunak maupun perangkat keras. Berikut ini adalah kebutuhan perangkat lunak dan perangkat keras serta data yang dibutuhkandalam penelitian: 1. Kebutuhan Perangkat Keras, meliputi: Processor Intel Core i3-3717u GHz RAM 4,00 GB Harddisk 500 GB Monitor Kebutuhan Perangkat Lunak, meliputi: Operating System Windows 7 32 bit Netbeans IDE Bahasa Pemrograman Java 3.4 Implementasi Implementasi sistem tersebut meliputi: 1. Pembuatan antarmuka pengguna berupa halaman halaman program. Adapun rancangan antarmuka yang ingin dibuat ditunjukan pada gambar 2 Gambar 2 Rancangan Antarmuka 2. Penerapan pre-processing 3. Penerapan algoritma reduksi fitur information gain thresholding untuk mengurangi fitur yang diolah sehingga komputasi lebih ringan 4. Penerapan metode k-means untuk mendapatkan hasil berupa artikel dalam kelompok tertentu. 3.5 Pengujian Pengujian sistem ini dilakukan agar dapat menunjukkan bahwa aplikasi dapat bekerja sesuai yang diharapkan. Pengujian sistem yang dilakukan yaitu, menggunakan shilloutte index, purity, dan uji coba batas ambang information gain untuk reduksi fitur. Tujuan pengujian dengan menggunakan silhoutte coefficient adalah untuk mengetahui kualitas dari cluster atau kelompok. Sedangkan pengujian purity digunakan untuk mengetahui tingkat kemurnian data dalam suatu cluster. Yang terkahir adalah pengujian dengan membandingkan hasil pengelompokan dengan dan tanpa reduksi fitur, hal ini dilakukan untuk mengetahui apakah metode information gain thresholding dapat membantu dalam pengelompokan. 4. PENGUJIAN DAN ANALISIS Pada penelitian ini dilakukan percobaan sebanyak 3 kali yaitu silhoutte coeffiecient, Purity, dan Uji Coba Batas Ambang untuk Reduksi Fitur. Setiap pengujian dilakukan

6 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3827 percobaan sebanyak 5 kali untuk nilai centroid awal yang berbeda beda. Hasil dari penentuan centroid awal tidak banyak memengaruhi hasil dari purity dan nilai batas ambang. Namun, penentuan centroid awal ini memengaruhi nilai dari shiloutte index, dimana setiap penentuan centroid awal yang berbeda untuk setiap percobaan akan menghasilkan kelompok yang berbeda pula. Hal ini dikarenakan centroid merupakan acuan titik awal, sehingga jika centroid yang digunakan berbeda maka jarak antar data dengan centroid juga berbeda. Hal inilah yang kemudian menyebabkan hasil pengelompokan berbeda. Namun secara keseluruhan, penentuan centroid awal tidak banyak memengaruhi hasil pengelompokan. Maka dari itu penentuan centroid awal dapat dilakukan secara acak. Berbeda dengan penentuan jumlah kelompok. Untuk penentuan jumlah kelompok, metode K-Means sangat terpengaruhi. Semakin sedikit sedikit kelompok yang digunakan, menunjukan hasil kemurnian dan shiloutte index yang tidak baik, hal ini juga terjadi ketika kelompok yang dibuat juga terlalu banyak. Hal ini dikarenakan ketika nilai k yang ditentukan terlalu kecil, keberagaman kelompok kecil akibatnya artikel dipaksa masuk ke beberapa kelompok kecil yang sebenarnya memiliki kedekatan masih jauh. Sebaliknya ketika kelompok yang dibuat terlalu besar, pengelompokan juga tidak efektif karna semakin beragamnya centroid yang ada. Sehingga artikel dikelompokan berdasarkan jarak yang terlalu kecil. Sedangkan ketika k yang ditentukan tidak terlalu kecil dan terlalu besar yaitu pada nilai 3 ditunjukan nilai shiloutte coefiecient mencapai dimana dalam hal ini menunjukan suatu pengelompokan yang baik dan nilai purity yaitu 0.75 yang dapat dibilang cukup baik juga. Suatu pengelompokan dikatakan buruk jika shiloutte coefiecient berada dibawah 0.5. Sedangkan ketika nilai shiloutte coefiecient berada diantara nilai 0.7 hingga 0.5 keatas, maka kelompok yang terbentuk dapat dianggap sebagai jumlah yang tepat. Sedangkan untuk purity yang mendekati nilai -1 maka dapat dikatakan bahwa data yang terkelompok tidak masuk ke kelompok yang tepat. Sedangkan jika mendekati nilai 1 maka data sudah terkelompok dengan tepat. Hasil ini dapat dilihat melalui gambar 3 dan gambar Silhoutte Coefficient Shilloutte Index Gambar 3 Grafik Pengujian silhoutte Gambar 4 Grafik Pengujian Purity Selain penentuan jumlah k, reduksi fitur merupakan salah satu hal yang memengaruhi hasil dari pengelompokan. Reduksi fitur mampu membantu dalam memperingan proses komputasi, selain itu hasil pengelompokan dibuktikan mampu menghasilkan pengelompokan yang baik. Hal ini ditunjukan dengan tanpa adanya reduksi fitur atau nilai batas ambang 0, hasil kemurnian data dala suatu kelompok dalam tingkat buruk dengan memroses 510 fitur kata. Sedangkan dengan adanya reduksi fitur dengan batas ambang 0.04, dengan memroses hanya 2 fitur hasil purity menununjukan nilai 0.7 yang artinya kemurnian dalam tingkat baik.. Hasil ini ditunjukan pada gambar Purity Purity Purity Measure Purity Gambar 5 Grafik pengujian Reduksi Fitur dan Purity Sehingga dapat diartikan bahwa untuk pengelompokan artikel dengan data sebanyak 120 dan memiliki kategori awal 3, lebih baik

7 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3828 dibentuk kelompok artikel terkait sebanyak 3 kelompok. Karena pembentukan 3 kelompok memiliki tingkat keakuratan dan kemurnian yang baik. 5. KESIMPULAN DAN SARAN Pada penelitian ini pengelompokan artikel dibangun menggunakan bahasa Java dengan menerapkan dua metode yaitu reduksi fitur Information Gain thresholding dan pengelompokan dengan K-Means. Pada tahap awal dilakukan preprocessing untuk mengurangi gangguan dalam data, selanjutnya dilakukan reduksi fitur untuk mengurangi fitur yang digunakan agar proses kebih cepat, kemudian dilakukan pembobotan sebagai dasar untuk menghitung jarak antar dokumen, setelah menemukan nilai jarak awal atau centroid, pengelompokan dapat dilakukan. Pada penelitian ini didapatkan hasil pengelompokan artikel dengan metode Information Gain Thresholding dan K-Means mampu menghasilkan kelompok dokumen yang baik dengan nilai silhouette coefiecient sebesar dan purity measure sebesar 0.75 dengan penggunaan 3 cluster dan batas ambang untuk reduksi fitur terbaik adalah 0.04 dengan kemurnian data lebih baik dibandingkan tanpa reduksi fitur. Berdasarkan uji coba yang telah dilakukan dan kesimpulan yang didapatkan, maka saran untuk pengembangan penelitian ini yaitu dalam penelitian selanjutnya, diharapkan industri media massa dapat mecoba menggunakan metode reduksi fitur lainnya yang mampu mengurangi waktu komputasi lebih baik dari metode information gain thresholding dan dalam percobaan penentuan jumlah kelompok yang digunakan, diharapkan industri media massa memerhatikan jumlah data yang digunakan. 6. DAFTAR PUSTAKA Chandra, Denny Nathaniel, Gede Indrawan, dan I Nyoman Sukajaya Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram. JITIKA Dewi, Rakhmatika Pemilihan fitur dokumen Bahasa Indonesia untuk pengelompokan dengan Metode k- means. Institut Pertanian Bogor: Bogor Junaidillah, Fadlil dan Wayan Firdaus Mahmudy Pembuatan Sistem Rekomendasi Menggunakan Decision Tree dan Clustering. ResearchGate Lonnberg Marcus dan Love Yregard Large scale news article clustering. Chalmers University of Technology: Sweden Maulida, Indah, Addy Suyatno, Heliza Rahmania Hatta Seleksi Fitur Pada Dokumen Abstrak Teks Bahasa Indonesia Menggunakan Metode Information Gain. ResearchGate Sari, Yuita Arum dan Eva Yulia Puspaningrum Pencarian Semantik Dokumen Berita Menggunakan Essential Dimensionof Latent Semantic Indexing dengan Memakai Reduksi Fitur Document Frequency dan Information Gain Thresholding. Seminar Nasional Teknologi Informasi dan Multimedia: Yogyakarta Subandi, Nurul Arifin Clustering dokumen skripsi berdasarkan Abstrak dengan menggunakan Bisecting k- means. Institut Pertanian Bogor: Bogor Wilkinson, Leland, Engelman, Laszlo, Corter, James, and Coward, Mark Cluster analysis, in. SYSTAT 12 Statistics, Wilkinson, Leland (ed.). SPSS Inc: Chicago. Yang, Yaming dan Pedersen, 1997, J.O. A Comparative Study on Feature Selection in Text Categorization, School of Computer Science. Carnegie Mellon University: USA Zade, Jaya, Dr. G. R. Bamnote, Prof. P. K. Agrawal Text Document Clustering Using K-Means Algorithm With Its Analysis And Implementation. IJIR: India Zaini, Akhmad, M. Aziz Muslim, dan Wijono Pengelompokan Artikel Berbahasa Indonesia Berdasarkan Struktur Laten Menggunakan Pendekatan Self Organizing Map. JNTETI