CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

Ukuran: px
Mulai penontonan dengan halaman:

Download "CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM"

Transkripsi

1 CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

2 CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 ii

3 ABSTRACT ISNA MARIAM. Clustering Indonesian Documents Using Fuzzy C-Means. Supervise by JULIO ADISANTOSO. Document clustering enables a user to have a good overall view of the information contained in the document. Most classical clustering algorithms assign each data to exactly one cluster, thus forming a crisp partition of the given data. Recently, fuzzy clustering approach allows for degrees of membership, to which a data belongs to different clusters. Document clustering aims to make a cluster that is internally coherent but clearly different from other clusters. The documents that are used in this research are several documents from journal of horticulture and documents of medical plantations. All documents in the collections are clustered by using fuzzy C- Means algorithm. Furthermore, in this research threshold is used to weight the words that engage in the clustering process. The appropriate uses of threshold may give a better accuracy for the clustering result. The best result in this research is obtained when the threshold value is 1.5 and fuzzifier value is 2 for the documents from journal of horticulture, whereas for the documents of medical plantations the best result is obtained when the threshold value is 0.75 and fuzzifier value is 2. Keywords : Document Clustering, Fuzzy C-Means Algorithm, Threshold iii

4 Judul Penelitian : Clustering Dokumen Berbahasa Indonesia Menggunakan Fuzzy C-Means Nama : Isna Mariam NRP : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer, Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus: iv

5 RIWAYAT HIDUP Penulis lahir di Bandung pada tanggal 14 Juli 1989 yang merupakan anak kedua dari lima bersaudara dengan ayah bernama Fatahudin dan Ibu bernama Siti Supriatin. Tahun 2007 penulis lulus dari SMA Negeri 9 Bandung dan pada tahun yang sama penulis lulus seleksi masuk IPB melalui jalur Ujian Saringan Masuk IPB (USMI), dan diterima sebagai mahasiswa Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Pada tahun 2008 penulis aktif dalam organisasi Badan Eksekutif Mahasiswa (BEM) FMIPA IPB sebagai staff Departemen Pengembangan Potensi Sumber Daya Mahasiswa (PPSDM) BEM FMIPA IPB 2008/2009. Penulis menjadi asisten praktikum Mata Kuliah Penerapan Komputer Departemen Ilmu Komputer IPB pada tahun 2010 dan asisten praktikum Mata Kuliah Basis Data Departemen Ilmu Komputer IPB pada tahun v

6 PRAKATA Alhamdulillahirabbil alamin, puji dan syukur Penulis panjatkan kepada Allah SWT atas segala curahan rahmat dan karunia-nya sehingga tugas akhir dengan judul Clustering Dokumen Berbahasa Indonesia Menggunakan Fuzzy C-Means berhasil diselesaikan. Shalawat serta salam Penulis sampaikan kepada Nabi Besar Muhammad SAW beserta keluarga dan sahabatnya. Penulis berterima kasih kepada Bapak Ir. Julio Adisantoso, M.Kom selaku dosen Pembimbing yang telah membimbing penulis selama penelitian berlangsung. Selain itu kepada Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom dan Bapak Sony Hartono Wijaya, S.kom, M.kom selaku dosen Penguji serta staf pengajar Departemen Ilmu Komputer terima kasih atas ilmu yang telah diberikan, serta tidak lupa kepada staf tata usaha yang membantu dalam administrasi selama kuliah di Departemen Ilmu Komputer IPB. Terima kasih sebesar-besarnya penulis sampaikan kepada Mama, Papa, Teteh, Aa, Kakak dan Adik yang telah memberikan kasih sayang, perhatian, semangat dan doa untuk keberhasilan Penulis. Kepada seluruh keluarga yang telah mendukung baik moral atau materil penulis sampaikan terima kasih. Terima kasih juga penulis sampaikan kepada Saudara Nazar Taufik Dihartika yang telah memberikan dukungan dan semangat kepada penulis, teman-teman satu bimbingan Agus Umriadi, Aprilia Ramadhina, Devi Dian Pramana, Fandi Rahmawan, Nova Maulizar, Nutri Rahayuni, Woro Indriyani yang telah bersama-sama berjuang menyelesaikan tugas akhir, juga teman-teman satu angkatan ilkom 44 yang telah memberikan pengalaman dan hari-hari yang menyenangkan selama berkuliah di Ilmu Komputer, kepada teman-teman Wisma Mega 2 Endah Ratna Puri, Gian Puspita, Reni Syahab, Rika Kurnia, Yulianti Sri Rejeki yang telah menemani hari-hari Penulis selama di kostan, serta masih banyak pihak yang membantu penulis namun tidak dapat disebutkan disini. Bogor, Agustus 2011 Isna Mariam vi

7 DAFTAR ISI Halaman DAFTAR TABEL... viii DAFTAR GAMBAR... viii DAFTAR LAMPIRAN... viii PENDAHULUAN... 1 Latar Belakang... 1 Tujuan Penelitian... 1 Ruang Lingkup Penelitian... 1 Manfaat Penelitian... 1 TINJAUAN PUSTAKA... 1 Information Retrieval (IR)... 1 Clustering... 2 Pemodelan Ruang Vektor... 2 Fuzzy C-Means... 2 Confusion Matrix... 2 F-Measure... 3 Sphinx Search... 3 METODE PENELITIAN... 3 Koleksi Dokumen... 4 Praproses... 4 Membentuk Inverted Index dengan menggunakan pembobotan tf.idf... 4 Implementasi Sistem... 4 Evaluasi... 5 Lingkungan Implementasi... 5 HASIL DAN PEMBAHASAN... 5 Karakteristik Dokumen... 5 Pembuangan Stopwords dan Term... 6 Clustering Dokumen dengan Fuzzy C-Means... 6 Temu Kembali Informasi KESIMPULAN DAN SARAN DAFTAR PUSTAKA LAMPIRAN vii

8 DAFTAR TABEL Halaman 1 Format Confusion Matrix Keterangan penamaan cluster Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = Nilai aktual-prediksi jurnal hortikultura dengan w = 3 dan threshold = Confusion matrix jurnal hortikultura dengan w = 3 dan threshold = Hasil clustering terhadap empat cluster Hasil clustering terhadap lima cluster Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = DAFTAR GAMBAR Halaman 1 Metode Penelitian Struktur dokumen jurnal hortikultura Struktur dokumen tanaman obat Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 3 dan T = Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = Perintah indexing dokumen oleh Sphinx search Perintah pembuatan service Sphinx search Grafik R-P pencarian pada dokumen jurnal hortikultura Grafik R-P pencarian pada dokumen tanaman obat DAFTAR LAMPIRAN Halaman 1 Gugus kueri dan jawaban dokumen jurnal hortikultura Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura Gugus kueri dan jawaban dokumen tanaman obat Hasil analisis kinerja sistem temu kembali dokumen tanaman obat Antarmuka sistem clustering dokumen Antarmuka hasil temu kembali dokumen viii

9 Latar Belakang PENDAHULUAN Informasi dapat terbagi menjadi bermacam-macam topik bahasan, dan dari topik-topik bahasan tersebut dapat terbagi menjadi subtopik-subtopik bahasan yang lebih spesifik. Subtopik dari suatu informasi dapat mempersempit ruang lingkup dari informasi, sehingga pencarian informasi yang sesuai dengan kebutuhan pengguna akan lebih mudah. Pada saat ini banyak sekali informasi yang beragam terkumpul menjadi satu yang menyebabkan kesulitan bagi pengguna untuk mendapatkan informasi yang sesuai. Untuk itu, diperlukan suatu teknik yang dapat membentuk dan mengumpulkan informasi berdasarkan topik dan subtopik yang dimiliki oleh informasi tersebut. Salah satu teknik yang dapat membentuk dan mengumpulkan informasi berdasarkan topik dan subtopik yang dimilikinya adalah clustering dokumen. Clustering dokumen akan mengelompokkan dokumen yang merepresentasikan satu topik tertentu ke dalam cluster tertentu pula. Menurut Manning et al. (2008) clustering dokumen bertujuan untuk membuat cluster yang koheren secara internal, tetapi jelas berbeda dengan cluster lainnya. Hal tersebut menunjukkan bahwa dokumen dalam cluster yang sama harus semirip mungkin dan dokumen dalam satu cluster harus berbeda dari dokumen dalam cluster lain. Beberapa penelitian mengenai clustering dokumen telah dilakukan, seperti penelitian yang dilakukan oleh Wibisono dan Khodra tahun 2005 yaitu clustering berita berbahasa Indonesia dengan menggunakan algoritme K- Means. Hasil dari penelitian tersebut masih memiliki kekurangan karena kualitas cluster yang dihasilkan belum terlalu baik. Penelitian mengenai clustering selanjutnya adalah penelitian yang dilakukan oleh Hizry Ramdani pada tahun Penelitian tersebut melakukan clustering konsep dokumen berbahasa Indonesia dengan menggunakan Bisecting K-Means. Metode yang digunakan pada penelitian tersebut merupakan hard clustering yang diterapkan pada enam kelas dokumen yang berbeda. Dokumen sering memiliki kecenderungan untuk dikelompokkan ke dalam lebih dari satu kelas, sesuai dengan derajat keanggotaannya. Oleh karena itu perlu dilakukan pengelompokan dokumen menggunakan Fuzzy C-Means yang memungkinkan dokumen terkelompok ke dalam satu atau lebih kelas. Tujuan Penelitian Tujuan utama penelitian ini adalah melakukan clustering dokumen berbahasa Indonesia dengan menggunakan teknik fuzzy C-Means dan mengimplementasikannya ke dalam sistem temu kembali informasi. Ruang Lingkup Penelitian Dokumen yang digunakan dalam penelitian ini adalah dokumen berbahasa Indonesia yang memiliki struktur XML yang tersedia di laboratorium Temu Kembali Informasi dan laboratorium Computational Intelligence Departemen Ilmu Komputer IPB. Dokumen ini merupakan dokumen jurnal pertanian yang berjumlah 324 dokumen dan dokumen tanaman obat yang berjumlah 93 dokumen. Manfaat Penelitian Manfaat dari penelitian ini adalah mengelompokkan dokumen berbahasa Indonesia ke dalam cluster yang ada berdasarkan derajat keanggotaan yang dimiliki setiap dokumen terhadap suatu cluster. Dengan demikian, pada proses temu kembali informasi, pencarian dokumen relevan hanya dilakukan pada cluster yang relevan. Teknik yang digunakan untuk mengelompokkan dokumen berbahasa Indonesia (jurnal hortikultura dan dokumen tanaman obat) adalah teknik fuzzy C-Means. TINJAUAN PUSTAKA Information Retrieval (IR) Menurut Baeza-Yates & Ribeiro-Neto information retrieval atau yang dalam bahasa Indonesia adalah temu kembali informasi berkaitan dengan representasi, organisasi, akses, dan penyimpanan informasi. Representasi dan organisasi informasi harus menyediakan kemudahan untuk mengakses informasi yang diinginkan oleh pengguna. Akan tetapi, karakterisasi kebutuhan informasi pengguna bukan merupakan perkara yang mudah. Oleh karena itu, pengguna harus menginterpretasikan informasi yang dibutuhkannya menjadi sebuah query yang dapat diproses oleh search engine (IR system). Query merupakan kumpulan kata kunci yang merangkum deskripsi dari informasi yang dibutuhkan 1

10 pengguna, sehingga IR system akan menemukembalikan informasi yang mungkin berguna atau relevan dengan kebutuhan pengguna. Clustering Clutering merupakan proses pengelompokan sekumpulan objek ke dalam beberapa kelas. Tujuannya adalah untuk membuat cluster yang koheren secara internal, tetapi jelas berbeda dengan cluster lainnya. Objek-objek dalam suatu cluster yang sama harus semirip mungkin satu sama lain dan objek-objek dalam suatu cluster harus berbeda dengan objek-objek dalam cluster lain (Manning et al. 2008). Clustering merupakan teknik unsupervised learning. Tidak adanya supervisi berarti tidak ada campur tangan manusia dalam memasukkan objek-objek ke dalam kelas yang ada. Secara garis besar metode clustering dibagi ke dalam dua grup yaitu flat clustering dan hierarchical clustering. Pada flat clustering setiap objek memiliki peluang yang sama untuk masuk ke kelas-kelas yang ada dan tidak memiliki level tertentu untuk masuk ke dalam sebuah cluster. Selain itu, dalam flat clustering, jumlah kelas yang akan diproses sudah ditentukan sebelumnya. Pada hierarchical clustering setiap objek memiliki ukuran tertentu sehingga objek tersebut masuk ke dalam cluster tertentu pula. Hierarchical clustering digambarkan dalam bentuk dendogram dan jumlah cluster dapat berjumlah berapa saja tergantung pada pemotongan dendogram (Manning et al. 2008). Clustering memiliki dua jenis, yaitu hard clustering dan soft clustering. Pada hard clustering, suatu objek merupakan anggota dari tepat satu cluster, sedangkan pada soft clustering suatu objek dimungkinkan berasosiasi dengan banyak cluster dengan adanya derajat keanggotaan (membership degree) antara setiap pasang objek dengan cluster (Kondadadi & Kozma 2002). Pemodelan Ruang Vektor Dokumen-dokumen direpresentasikan sebagai vektor. Dalam sebuah koleksi, tiap dokumen d dianggap sebagai vektor dalam term-space. Masing-masing dokumen digambarkan oleh term-frequency (TF) vektor d ij = tf 1, tf 2,.., tf n dengan tf i adalah frekuensi term i dalam koleksi dokumen. Perbaikan model ini dilakukan pada pembobotan masing-masing term didasarkan pada inverse document frequency (IDF) dalam koleksi dokumen. Tujuan pembobotan ini adalah term yang muncul di banyak dokumen memiliki kekuatan yang berbeda. Hal ini dilakukan dengan melakukan perkalian tiap term i dengan log N df t, dengan N adalah jumlah dokumen dalam koleksi dan df t adalah jumlah dokumen yang mengandung term i (document-frequency). Representasi tf-idf pada sebuah dokumen adalah sebagai berikut (Karypis G & Han E 2000): d tfidf = tf 1 log N df 1, tf 2 log N df 2,.., tf n log N df n. Fuzzy C-Means Fuzzy C-Means (FCM) adalah salah satu metode yang paling umum digunakan dalam fuzzy clustering. FCM adalah suatu teknik clustering data yang keberadaan tiap titik data suatu cluster ditentukan oleh derajat keanggotan (membership degree). Teknik ini pertama kali diperkenalkan oleh James Bezdek pada tahun Konsep dasar FCM adalah sebagai berikut: 1. Tentukan pusat cluster, yang akan menandai lokasi rata-rata untuk tiap-tiap cluster. Pada kondisi awal, pusat cluster ini masih belum akurat. Tiap-tiap titik data memiliki derajat keanggotaan untuk tiaptiap cluster. 2. Perbaiki pusat cluster dan derajat keanggotaan tiap-tiap titik data secara berulang, maka akan dapat dilihat bahwa pusat cluster akan bergerak menuju suatu lokasi yang tepat. Perulangan ini didasarkan pada minimisasi fungsi objektif yang menggambarkan jarak dari titik data yang diberikan ke pusat cluster yang terboboti oleh derajat keanggotaan titik data tersebut. Output dari FCM bukan merupakan fuzzy inference system, namun merupakan deretan pusat cluster dan beberapa derajat keanggotaan untuk tiap-tiap titik data. Informasi ini dapat digunakan untuk membangun suatu fuzzy inference system (Hadi 2005). Confusion Matrix Confusion Matrix sering juga disebut classification matrix merupakan sebuah matriks yang memberikan gambaran penuh mengenai tingkat kesalahan serta kualitas prediksi sebuah model dengan format seperti pada Tabel 1. Beberapa definisi terkait 2

11 dengan evaluasi yang bisa dipakai melalui confusion matrix (Antonius 2008) adalah sebagai berikut: True Positive (TP) adalah proporsi dari sample bernilai true yang diprediksi secara benar. False Positive (FP) adalah proporsi antara sample bernilai false yang salah diprediksi sebagai sample bernilai true. False Negative (FN) adalah proporsi sample bernilai true yang salah diprediksi sebagai sample bernilai false. True Negative (TN) adalah proporsi sample bernilai false yang diprediksi secara benar. Tabel 1 Format Confusion Matrix Predicted TRUE FALSE TRUE True Positive (TP) False Negative (FN) FALSE False Positive (FP) True Negative (TN) Dari confusion matrix dapat dihitung akurasi terhadap hasil klasifikasi data yang merupakan proporsi jumlah sample yang diprediksi secara tepat, terhadap jumlah seluruh sample. Persamaan yang digunakan adalah: Akurasi = F-Measure TP+TN TP+TN+FP+FN F-measure merupakan salah satu perhitungan evaluasi dalam temu kembali informasi yang mengombinasikan recall dan precision. Nilai recall dan precision pada suatu keadaan dapat memiliki bobot yang berbeda. Ukuran yang menampilkan timbal balik antara recall dan precision adalah F- Measure yang merupakan bobot harmonic mean dari recall dan precision. Berikut adalah persamaan F-Measure: dengan 1 F = α 1 P + 1 α 1 R β 2 = P = 1 α α TP TP+FP Actual = β2 + 1 RP β 2 P + R, α 0,1 dan β 2 0,., R = TP TP+FN.. Menurut Manning et al. 2009, memisahkan dokumen-dokumen yang mirip kadang lebih buruk daripada menempatkan pasangan dokumen yang tidak mirip ke dalam cluster yang sama. Dengan demikian, dapat digunakan F-Measure dengan nilai false negative lebih kuat dari nilai false positive. Selanjutnya, akan diberikan nilai β > 1 sehingga memberikan bobot yang lebih untuk recall. F-Measure yang seimbang memberikan bobot yang sama antara recall dan precision, dengan nilai α = 1 atau β = 1. 2 Hal ini dapat ditulis sebagai F 1 atau F β =1 sehingga persamaan menjadi: F β =1 = 2RP P+R Sphinx Search. Sphinx search adalah full text search engine yang merupakan salah satu teknik untuk melakukan pencarian dokumen atau database yang disimpan dalam komputer. Selama pencarian mesin pencari melewati dan memeriksa seluruh kata yang ada pada dokumen dan mencoba untuk mencocokkan kata-kata tersebut dengan query yang diberikan. pencarian seluruh kata yang dilakukan secara lengkap pada dokumen inilah yang disebut pencarian text lengkap (full-text search). Full-text search unggul dalam pencarian teks tidak terstruktur bervolume besar secara cepat dan efisien serta memberikan hasil berdasarkan seberapa baik kemiripan suatu dokumen dengan query pengguna (Abbas 2011). METODE PENELITIAN Penelitian ini secara garis besar melakukan dua proses, yaitu proses training dan proses testing. Pada proses training dilakukan pembentukan cluster dokumen, sedangkan pada proses testing dilakukan temu kembali dokumen hasil clustering berdasarkan query yang diberikan pengguna, kemudian hasil temu kembali tersebut dievaluasi. Secara garis besar metode penelitian yang digunakan dalam penelitian ini adalah seperti Gambar 1. 3

12 Training Query Testing Gambar 1 Metode Penelitian. Koleksi Dokumen Penelitian ini menggunakan dua koleksi dokumen yang berjumlah 324 untuk dokumen jurnal hortikultura dan 93 untuk dokumen tanaman obat. Koleksi dokumen yang digunakan telah diketahui jumlah kelasnya. Dokumen jurnal hortikultura memiliki tiga cluster, yaitu Ekofisiologi dan Agronomi, Pemuliaan dan Teknologi Benih, serta Proteksi. Jumlah cluster untuk mengelompokkan dokumen tanaman obat adalah tujuh cluster yaitu Kronis, Kulit, Nyeri-Radang-Demam, Pencernaan, Perawatan, Pernapasan, dan Saluran kemih yang merupakan cluster dari dokumen yang mengulas khasiat tanaman obat dalam mengobati penyakit. Dokumen yang digunakan diperoleh dari koleksi dokumen (korpus) milik laboratorium Temu Kembali Informasi dan laboratorium Computational Intelligence Departemen Ilmu Komputer IPB. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki. Praproses Praproses Clustering Model Cluster Search engine Evaluasi Pada tahap praproses dilakukan lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf noncapital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut token. Dalam penelitian ini unit terkecil yang digunakan adalah kata yang terdiri atas minimal tiga huruf. Selain itu, tanda baca yang terdapat dalam dokumen dihilangkan sehingga tidak ikut diproses. Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Pada umumnya kata-kata yang masuk ke dalam stopwords memiliki tingkat kemunculan yang tinggi di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Membentuk Inverted Index dengan menggunakan pembobotan tf.idf Hasil dari tahap praproses adalah term terpilih yang akan digunakan pada vector space model. Pada term terpilih tersebut dilakukan pembobotan dengan menggunakan tf.idf. Pembobotan pada term dapat membantu pembedaan istilah-istilah yang lebih penting untuk tujuan penemukembalian (Ridha 2001). Pembobotan tf.idf merupakan perkalian antara frekuensi kemunculan term dengan fungsi inverse document frequency (Salton 1989 dalam Ridha 2002). w ij = tf ij.log N df j, dengan 1. w ij adalah bobot term ke-j dokumen ke-i 2. tf ij adalah frekuensi kemunculan term ke-j dokumen ke-i 3. df j adalah frekuensi dokumen yang mengandung term ke-j 4. N adalah jumlah dokumen dalam koleksi. Implementasi Sistem Setelah tahap praproses dan pembobotan selesai dilakukan, langkah selanjutnya adalah pembentukan cluster dokumen dengan menggunakan Fuzzy C-Means (FCM). Tujuan dari algoritme FCM adalah untuk menemukan pusat cluster (centroid) dengan meminimumkan fungsi objektif (Win & Mon 2010). Fungsi objektif yang digunakan pada FCM adalah: n c P t = x ij v kj 2 dengan i=1 k=1 m j =1 μ ik w 1. x ij merupakan bobot term ke-j pada dokumen ke-i 4

13 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks cluster 7. w adalah derajat fuzzy, w [1, ]. Algoritme Fuzzy C-Means secara keseluruhan adalah sebagai berikut: 1. Memasukkan data yang akan dikelompokkan berupa martiks berukuran nxm (n adalah jumlah dokumen, m adalah jumlah kata) dan tentukan parameter yang terlibat, yaitu: Jumlah cluster (c); Tingkat fuzzy (w); Maksimum iterasi (MaxIter); Error terkecil yang diharapkan (e); Fungsi objektif awal ( P 0 = 0); Iterasi awal ( t = 1); 2. Membangkitkan bilangan acak μ ik sebagai derajat keanggotaan, dengan i adalah indeks dokumen (i=1,2,,n) dan k adalah indeks cluster (k = 1,2,,c) sebagai elemen-elemen matriks partisi awal μ. 3. Menghitung pusat cluster ke-k: V kj dengan k = 1, 2, 3,,c dan j=1, 2, 3,,m. V kj = n i=1 μ w ik x x ij n i=1 μ w ik 4. Menghitung fungsi objektif pada iterasi ke-t, n c P t = x ij v kj 2 i=1 k=1 m j =1. μ ik w 5. Meng-update derajat keanggotaan μ ik = c k=1 m j =1 m j =1 X ij V kj 2 X ij V kj 2 1 w 1 1 w 1 6. Mengecek kondisi berhenti: Jika ( P t P t 1 < e) atau (t > MaxIter) maka berhenti. Jika tidak : t = t+1, mengulangi kembali iterasi dimulai dari langkah ke-3. Evaluasi Evaluasi dilakukan dengan menghitung F-Measure keseluruhan cluster hasil.. clustering. Untuk menghitung F-Measure dibutuhkan pengetahuan mengenai pengelompokan dokumen yang telah dianggap benar. Dalam penelitian ini, pengelompokan dokumen yang telah dianggap benar adalah pengelompokan yang dilakukan dengan cara manual (Ramdani 2011). Lingkungan Implementasi Lingkungan implementasi yang dalam penelitian ini adalah sebagai berikut: Perangkat lunak: Sistem operasi Windows 7 PHP Sphinx Perangkat keras: Processor Intel Core 2 Duo 1,50GHz RAM 2 GB Hardisk dengan kapasitas 120 GB HASIL DAN PEMBAHASAN Karakteristik Dokumen Dokumen yang digunakan dalam penelitian ini adalah dokumen berbahasa Indonesia yaitu dokumen jurnal hortikultura dan dokumen tanaman obat. Jumlah dokumen yang digunakan adalah 324 dokumen untuk jurnal hortikultura dan 93 dokumen tanaman obat. Koleksi dokumen jurnal hortikultura terbagi ke dalam tiga cluster, yaitu Ekofisiologi dan Agronomi, Pemuliaan dan Teknologi Benih, serta Proteksi. Dokumen tanaman obat terbagi ke dalam tujuh cluster, yaitu Kronis, Kulit, Nyeri-Radang-Demam, Pencernaan, Perawatan, Pernapasan, dan Saluran kemih. Seluruh dokumen yang digunakan dalam penelitian ini berformat plain-text yang memiliki struktur XML. Struktur tulisan dokumen jurnal hortikultura dapat dilihat pada Gambar 2, sedangkan struktur tulisan dokumen tanaman obat dapat dilihat pada Gambar 3. Dokumen dikelompokkan ke dalam beberapa tag sebagai berikut: <DOCID></DOCID>, menunjukkan ID dari dokumen jurnal hortikultura. <DOCNO></DOCNO>, menunjukkan ID dari dokumen tanaman obat. 5

14 <content></content>, menunjukkan isi atau informasi dari dokumen. <nama></nama>, menunjukkan nama tanaman obat pada dokumen tanaman obat. <namal></namal>, menunjukkan nama latin tanaman obat pada dokumen tanaman obat. <fam></fam>, menunjukkan nama family dari tamanan obat pada dokumen tanaman obat. <penyakit></penyakit>, menunjukkan penyakit yang berkaitan dengan tanaman obat pada dokumen tanaman obat. Dalam penelitian ini, pemrosesan text hanya dilakukan pada text yang berada di antara tag <content> dan </content>, sehingga text yang berada di dalam tag lainnya tidak diproses. <docid>dok001.txt</docid> <content>akhir-akhir ini kentang menjadi tanaman prioritas dan mempunyai nilai ekonomi tinggi. Produksi umbi kentang di Indonesia masih rendah sehingga </content> Gambar 2 Struktur dokumen jurnal hortikultura. <DOCNO>001</DOCNO> <nama>akar Kuning</nama> <namal>arcangelisia flava (L.) Merr.</namal> <fam>menispermaceae</fam> <penyakit>pencernaan</penyakit> <content> Famili:Menispermaceae </content> Gambar 3 Struktur dokumen tanaman obat. Pembuangan Stopwords dan Term Pada tahap praproses dilakukan pembuangan term di dalam dokumen yang termasuk ke dalam stopwords dan term yang memiliki bobot (tf.idf) kurang dari threshold. Threshold yang digunakan pada penelitian ini adalah sebesar 1.5 dan 3 untuk dokumen jurnal hortikultura, sedangkan untuk dokumen tanaman obat digunakan threshold sebesar 1.5 dan Ukuran threshold yang berbeda antara dokumen jurnal hortikultura dengan dokumen tanaman obat dikarenakan karakteristik dokumen yang berbeda. Ukuran threshold yang dipilih disesuaikan dengan seluruh koleksi dokumen, sehingga dari setiap dokumen terdapat kata-kata yang memiliki bobot lebih besar dari threshold dan merepresentasikan dokumennya. Karena semakin sering suatu kata muncul pada suatu dokumen (selain kata yang termasuk ke dalam stopwords), maka diduga semakin penting kata itu untuk dokumen tersebut (Manning et al. 2009). Clustering Dokumen dengan Fuzzy C- Means Clustering dokumen jurnal hortikultura dan dokumen tanaman obat dilakukan dengan menggunakan algoritme Fuzzy C- Means (FCM) dengan input sebagai berikut: 1. Term yang telah dihitung bobotnya menggunakan tf.idf dan bernilai lebih dari threshold 2. Jumlah cluster (c), yaitu tiga cluster untuk dokumen jurnal hortikultura dan tujuh cluster untuk dokumen tanaman obat 3. Pengontrol tingkat fuzzy (w), yaitu dua dan untuk pembanding sebesar tiga 4. Jumlah maksimum iterasi (maxiter) sebesar 100 iterasi 5. Nilai error (e) sebesar Untuk meringkas dan memudahkan penulisan nama cluster, maka dilakukan penamaan seperti pada Tabel 2. Tabel 2 Keterangan penamaan cluster C1 C2 C3 C1 C2 C3 C4 C5 C6 C7 Dokumen Jurnal Hortikultura Ekofisiologi dan Agronomi Pemuliaan dan Teknologi Benih Proteksi Dokumen Tanaman Obat Kronis Kulit Nyeri-Radang-Demam Pencernaan Perawatan Pernapasan Saluran kemih 6

15 1. Clustering Dokumen Jurnal Hortikultura Perhitungan pertama adalah melakukan clustering terhadap dokumen jurnal hortikultura dengan menggunakan nilai w = 2 dan threshold = 3. Tabel aktual-prediksinya dapat dilihat pada Tabel 3 dan Confusion Matrix dari hasil nilai aktual-prediksinya ditunjukkan pada Tabel 4. Tabel 3 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 3 aktual Prediksi C1 C2 C3 C C C Tabel 4 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 3 TRUE FALSE TP FN TRUE FP TN FALSE Berdasarkan Tabel 4, total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 2 dan threshold = 3 terdapat 190 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 134 dokumen. Nilai recall untuk hasil ini adalah 58.64% dan nilai precision adalah 58.64%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 58.64% dan akurasi sebesar 72.42%. Perhitungan kedua adalah melakukan clustering terhadap dokumen jurnal hortikultura dengan menggunakan nilai w = 2 dan threshold = 1.5. Tabel aktual-prediksinya dapat dilihat pada Tabel 5 dan Confusion Matrix dari hasil nilai aktual-prediksinya ditunjukkan pada Tabel 6. Berdasarkan Tabel 6 dapat dilihat bahwa total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 2 dan threshold = 1.5 terdapat 218 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 106 dokumen. Nilai recall untuk hasil ini adalah 67.28% dan nilai precision adalah 67.28%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 67.28% dan akurasi sebesar 78.19%. Tabel 5 Nilai aktual-prediksi jurnal hortikultura dengan w = 2 dan threshold = 1.5 aktual Akurasi % 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 72.42% Prediksi C1 C2 C3 C C C Tabel 6 Confusion matrix jurnal hortikultura dengan w = 2 dan threshold = 1.5 TRUE FALSE TP FN TRUE FP TN FALSE Setelah dilakukan clustering pada dokumen jurnal hortikultura, maka dapat diketahui bahwa tingkat akurasi clustering dengan nilai w = 2 dan threshold = 1.5 lebih baik dibandingkan dengan clustering menggunakan nilai w = 2 dan threshold = 3. Diagram perbandingan akurasi hasil clustering dengan menggunakan nilai w = 2 dan threshold = 1.5 dengan nilai w = 2 dan threshold = 3 ditunjukkan pada Gambar % T = 3 T = 1.5 Series % w = % w = 2 w dan threshold (T) Gambar 4 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 3 7

16 Selain menggunakan nilai threshold yang berbeda, untuk mengetahui pengaruh parameter w terhadap hasil clustering dengan menggunakan algoritme FCM, maka dilakukan perhitungan clustering dengan menggunakan nilai w = 3 dengan nilai threshold = 1.5. Tabel aktual-prediksinya dapat dilihat pada Tabel 7 dan Confusion Matrix dari hasil nilai aktual-prediksinya seperti pada Tabel 8. Tabel 7 Nilai aktual-prediksi jurnal hortikultura dengan w = 3 dan threshold = 1.5 aktual Prediksi C1 C2 C3 C C C Tabel 8 Confusion matrix jurnal hortikultura dengan w = 3 dan threshold = 1.5 TRUE FALSE TP FN TRUE FP TN FALSE Berdasarkan Tabel 8 dapat dilihat bahwa total pengujian koleksi dokumen jurnal hortikultura terhadap tiga cluster dengan nilai w = 3 dan threshold = 1.5 terdapat 197 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan sebanyak 127 dokumen. Nilai recall untuk hasil ini adalah 60.80% dan nilai precision adalah 60.80%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 60.80% dan akurasi sebesar 73.87%. Untuk melihat pengaruh nilai w terhadap hasil clustering dokumen jurnal hortikultura menggunakan algoritme FCM, dapat dibandingkan hasil yang diperoleh antara penggunaan nilai w = 2 dan threshold = 1.5 dengan w = 3 dan threshold = 1.5. Dari hasil yang ditunjukkan sebelumnya oleh Tabel 6 dan Tabel 8, dapat dilihat bahwa selisih hasil dokumen yang secara benar dikelompokkan dengan menggunakan algoritme FCM adalah 21 dokumen, dengan w = 2 yang berhasil melakukan clustering terhadap 21 dokumen tersebut dengan benar. Perbandingan akurasi antara penggunaan nilai w = 2 dan w = 3 dapat dilihat pada Gambar 5. Akurasi % 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 78.19% 73.87% T = 1.5 T = 1.5 Series % w = % w =3 w dan threshold (T) Gambar 5 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 3 dan T = 1.5 Selisih jumlah dokumen hasil clustering dengan penggunaan nilai parameter w yang berbeda tidak terlalu signifikan yang dapat disebabkan oleh jumlah dokumen yang digunakan tidak terlalu besar. Menurut James Bezdek tahun 1984, tidak ada petunjuk secara teoritikal ataupun secara komputasional mengenai penggunaan parameter w sebagai parameter pengontrol tingkat fuzzy yang optimal. Berdasarkan percobaan yang dilakukan, penggunaan nilai w yang semakin besar akan menyebabkan distribusi data menjadi kurang baik, sehingga menyebabkan akurasi hasil clustering menurun. Oleh karena itu, untuk clustering dokumen tanaman obat hanya akan digunakan nilai w = 2. Distribusi dokumen hasil clustering pada umumnya akan berubah dengan penetapan jumlah cluster yang berbeda-beda. Untuk melihat distribusi dokumen jurnal hortikultura terhadap jumlah cluster yang ditentukan, maka selain dilakukan clustering menjadi tiga cluster, dilakukan pula clustering menjadi empat cluster dan lima cluster (Tabel 9 dan 10). Berdasarkan Tabel 9 dan 10, dapat diketahui bahwa koleksi dokumen jurnal hortikultura yang terbagi ke dalam tiga cluster ternyata dapat dikelompokkan ke dalam empat cluster dan lima cluster. Hal tersebut menandakan bahwa dari tiga cluster hasil pengelompokan oleh manusia, ternyata dapat dikelompokkan kembali menjadi sejumlah 8

17 cluster lain oleh sistem. Pengelompokan yang dilakukan oleh sistem mampu menghasilkan cluster dokumen baru yang lebih spesifik, yang sebelumnya berdasarkan pengelompokan oleh manusia dianggap termasuk ke dalam cluster yang lebih umum. Tabel 9 Hasil clustering terhadap empat cluster aktual Prediksi C1 C2 C3 C4 C C C Tabel 10 Hasil clustering terhadap lima cluster aktual Prediksi C1 C2 C3 C4 C5 C C C Clustering Dokumen Tanaman Obat Clustering dokumen tanaman obat yang berjumlah 93 dilakukan dengan menggunakan nilai w = 2 dengan nilai threshold sebesar 1.5 dan Perhitungan pertama untuk clustering dokumen tanaman obat adalah dengan menggunakan nilai w = 2 dan threshold = 1.5. Tabel aktual-prediksinya dapat dilihat pada Tabel 11 dan Confusion Matrix dari hasil nilai aktual-prediksinya dapat dilihat pada Tabel 12. Tabel 11 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 1.5 Prediksi C1 C2 C3 C4 C5 C6 C7 C C C C C C C Tabel 12 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 1.5 TRUE FALSE TP FN TRUE FP TN FALSE Berdasarkan Tabel 12 total pengujian koleksi dokumen tanaman obat terhadap tujuh cluster dengan nilai w = 2 dan threshold = 1.5 terdapat 49 dokumen yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan adalah 44 dokumen. Nilai recall untuk hasil ini adalah 52.69% dan nilai precision adalah 52.69%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 52.69% dan akurasi sebesar 86.48%. Perhitungan kedua untuk clustering dokumen tanaman obat adalah dengan menggunakan nilai w = 2 dan threshold = Tabel aktual-prediksinya dapat dilihat pada Tabel 13 dan Confusion Matrix dari hasil nilai aktual-prediksinya ditunjukkan pada Tabel 14. Tabel 13 Nilai aktual-prediksi dokumen tanaman obat dengan w = 2 dan threshold = 0.75 Prediksi C1 C2 C3 C4 C5 C6 C7 C C C C C C C Tabel 14 Confusion matrix dokumen tanaman obat dengan w = 2 dan threshold = 0.75 TRUE FALSE TP FN TRUE FP TN FALSE Berdasarkan Tabel 14 dapat dilihat bahwa total pengujian koleksi dokumen tanaman obat terhadap tujuh cluster dengan nilai w = 2 dan threshold = 0.75 terdapat 54 dokumen 9

18 yang dikelompokkan secara benar, dan total dokumen yang salah dikelompokkan adalah 39 dokumen. Nilai recall untuk hasil ini adalah 58.06% dan nilai precision adalah 58.06%. Oleh karena itu perhitungan di atas menghasilkan F-Measure sebesar 58.06% dan akurasi sebesar 88.01%. Setelah clustering dokumen tanaman obat dilakukan, maka dapat dilihat bahwa tingkat akurasi clustering dengan nilai w = 2 dan threshold = 0.75 lebih baik dibandingkan dengan clustering menggunakan nilai w = 2 dan threshold = 1.5. Diagram perbandingan akurasi hasil clustering dokumen tanaman obat dengan menggunakan nilai w = 2 dan threshold = 1.5 dengan nilai w = 2 dan threshold = 0.75 dapat dilihat pada Gambar 6. Akurasi % 90.00% 80.00% 70.00% 60.00% 50.00% 40.00% 30.00% 20.00% 10.00% 0.00% 86.48% 88.01% T = 1.5 T = 0.75 Series % w = % w =2 w dan threshold (T) Gambar 6 Diagram akurasi nilai w = 2 dan T = 1.5 dengan nilai w = 2 dan T = 0.75 Berdasarkan seluruh hasil perhitungan yang telah dilakukan terhadap dokumen jurnal hortikultura dan dokumen tanaman obat, dapat dilihat bahwa penggunaan threshold sebesar 1.5 untuk dokumen jurnal hortikultura dan threshold sebesar 0.75 untuk dokumen tanaman obat memberikan hasil akurasi yang lebih baik. Berdasarkan hal tersebut dapat diketahui bahwa penggunaan threshold yang sesuai dapat menghasilkan akurasi yang lebih baik. Karena dengan penggunaan threshold yang terlalu besar, menyebabkan range bobot term yang masuk dalam proses clustering menjadi lebih kecil dan menyebabkan tidak ikutnya term penciri yang bernilai lebih kecil dari threshold dalam proses clustering. Oleh karena itu, hasil clustering yang diimplementasikan pada search engine adalah clustering dengan menggunakan w = 2 dengan threshold = 1.5 untuk dokumen jurnal hortikultura dan w = 2 dengan threshold 0.75 untuk dokumen tanaman obat. Temu Kembali Informasi Setelah hasil clustering didapat, maka dokumen-dokumen yang ada dalam koleksi sudah terkumpul dalam cluster masingmasing berdasarkan algoritme FCM. Proses akhir dari penelitian ini adalah proses temu kembali informasi yang dibangun dengan menggunakan Sphinx search. Sebelum tahap temu kembali informasi dengan menggunakan Sphinx search dapat dilakukan, harus melakukan indexing terlebih dahulu terhadap seluruh dokumen dengan perintah seperti pada Gambar 7. C:\Sphinx\bin>indexer -- config c:\sphinx\sphinx.conf --all Gambar 7 Perintah indexing dokumen oleh Sphinx search Indexing dilakukan pada satu file XML yang berisi seluruh koleksi dokumen yang ada yang di dalamnya terdapat beberapa tag yang dikenali oleh Sphinx search. Indexing yang dilakukan oleh Sphinx search bertujuan agar dokumen tersebut dapat dikenali dan dapat ditemu-kembalikan oleh Sphinx search. Langkah selanjutnya adalah membuat service untuk Sphinx search. Nama service yang digunakan dalam penelitian ini yaitu SphinxJurnal untuk koleksi dokumen jurnal hortikultura dan SphinxTanob untuk koleksi dokumen tanaman obat. Pembuatan service untuk tanaman obat dilakukan dengan cara yang sama dengan mengganti servicename saja. Perintah untuk membuat service ditunjukkan oleh Gambar 8. \Sphinx\bin\searchd --install --config C:\Sphinx\sphinx.conf -- servicename SphinxJurnal Gambar 8 Perintah pembuatan service Sphinx search Sphinx search menerima input query dari pengguna dan mengembalikan dokumendokumen yang sesuai dengan query. Dokumen yang sesuai dengan query yang ditemu-kembalikan oleh Sphinx search dapat berupa dokumen-dokumen yang berasal dari 10

19 seluruh cluster yang ada, atau dapat berasal dari cluster tertentu saja. Apabila pengguna sudah mengetahui kelas dari informasi yang dibutuhkannya terlebih dahulu, maka proses pencarian akan lebih efisien, karena fokus pencarian informasi hanya dilakukan pada satu cluster saja. Pengujian Kinerja Sistem Proses pengujian kinerja sistem dilakukan dengan melakukan pemeringkatan dokumen dengan memperhitungkan ukuran kesamaan antara query dengan dokumen dan query dengan pusat cluster. Ukuran kesamaan antara query q dengan dokumen d pada c adalah: Sim(q,d c) = asim(q,d)+(1-a)sim(q,c), dengan 1. Sim(q,d) adalah ukuran kesamaan antara query q dengan dokumen d 2. Sim(q,c) adalah dot product antara query q dengan pusat cluster c. 3. a adalah bobot (0 < a < 1). Pada penelitian ini dipilih a = 0.5. Pengujian pada Dokumen Jurnal Hortikultura Proses pengujian kinerja sistem pada keseluruhan koleksi dokumen tanaman obat menggunakan 15 kueri uji (Lampiran 1). Pencarian dengan kueri uji bertujuan untuk mendapatkan nilai recall dan precision dari sistem temu kembali dokumen jurnal hortikultura. Setelah nilai recall dan precision didapat, kemudian dihitung interpolasi maksimumnya untuk mendapatkan nilai average precision (AVP) yang menggambarkan kinerja sistem secara keseluruhan. Berdasarkan hasil pengujian terhadap seluruh cluster pada dokumen jurnal hortikultura didapat nilai average precision sebesar (Lampiran 2). Hal tersebut menunjukkan bahwa kinerja sistem temu kembali terhadap hasil clustering dokumen jurnal hortikultura sudah baik. Gambar 9 menunjukkan kinerja sistem pada pencarian dokumen jurnal hortikultura. Pengujian pada Dokumen Tanaman Obat Proses pengujian kinerja sistem pada dokumen tanaman obat menggunakan 7 kueri uji (Lampiran 3). Pengujian ini dilakukan untuk mendapat nilai recall dan precision dari sistem temu kembali dokumen tanaman obat. Setelah nilai recall dan precision didapat, kemudian dihitung interpolasi maksimumnya untuk mendapatkan nilai average precision (AVP) yang menggambarkan kinerja sistem secara keseluruhan. Berdasarkan hasil pengujian terhadap seluruh cluster pada dokumen tanaman obat didapat nilai average precision sebesar (Lampiran 4). Hal tersebut menunjukkan bahwa kinerja sistem temu kembali terhadap hasil clustering dokumen tanaman obat sudah baik. Gambar 10 menunjukkan kinerja sistem pada pencarian dokumen tanaman obat. Precision Precision Recall Gambar 9 Grafik R-P pencarian pada dokumen jurnal hortikultura Recall Gambar 10 Grafik R-P pencarian pada dokumen tanaman obat Pengujian pada dokumen jurnal hortikultura mendapatkan hasil yang lebih baik dari pengujian dokumen tanaman obat. Hal ini karena dokumen jurnal hortikultura lebih memiliki penciri yang berbeda dari dokumen lainnya dibandingkan dengan dokumen tanaman obat, sehingga sistem 11

20 dapat menemukembalikan dokumen relevan yang lebih banyak. KESIMPULAN DAN SARAN Kesimpulan Berdasarkan hasil yang diperoleh, dapat disimpulkan bahwa clustering dengan menggunakan algoritme Fuzzy C-Means dapat diterapkan pada dokumen berbahasa Indonesia dengan topik pertanian. Ditinjau dari segi hasil, kinerja sistem clustering terhadap dokumen jurnal hortikultura lebih baik pada saat menggunakan nilai w = 2 sebagai parameter tingkat fuzzy dan threshold = 1.5 sebagai batas minimun bobot term yang diikutsertakan pada proses clustering. Kinerja sistem clustering terhadap dokumen tanaman obat lebih baik pada saat menggunakan nilai w = 2 sebagai parameter tingkat fuzzy dan threshold = 1.5. Penggunaan threshold pada tahap praproses dapat mengurangi dimensi dokumen dan mempengaruhi hasil clustering. Clustering dokumen jurnal hortikultura yang dikelompokkan menjadi tiga cluster oleh manusia ternyata dapat dikelompokkan menjadi empat cluster dan lima cluster oleh sistem. Sistem mampu mendistribusikan dokumen dan menghasilkan cluster dokumen baru yang lebih spesifik yang sebelumnya berdasarkan pengelompokan oleh manusia dianggap termasuk ke dalam cluster yang lebih umum. Saran Salah satu faktor yang menentukan tingkat keakurasian hasil clustering adalah penentuan fitur atau penciri dokumen. Oleh karena itu perlu dicobakan metode lain untuk menentukan fitur dokumen. DAFTAR PUSTAKA Baeza-Yates R, Ribeiro-Neto B Modern Information Retrieval. England: Addison Wesley. Bezdek C James, Ehrlich R, Full W FCM: The Fuzzy C-Means Clustering Algorithm. Computers & Geosciences Vol. 10, No. 2-3, pp Pegamon Press Ltd. USA. Hadi Y H Pembagian Kelas Kuliah Mahasiswa Menggunakan Algoritma Pengklasteran Fuzzy. [skripsi]. Semarang: Jurusan Teknik Elektro, Universitas Diponegoro. Karypis G, Han E Concept Indexing: A Fast Dimensionally Reduction Algorithm with Applications to Document Retrieval & Categorization. Computer Science and Engineering. University of Minnesota. Minneapolis. Kondadadi R, Kozma R A Modified Fuzzy ART for Soft Document Clustering. Memphis: Division of Computer Science, University of Memphis. Manning C D, Raghavan P, Schutze H An Introduction to Information Retrieval. Cambridge: Cambridge University Press. Ramdani H Clustering Konsep Dokumen Berbahasa Indonesia menggunakan Bisecting K-Means. [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Ridha A Pengindeksan Otomatis dengan Istilah Tunggal untuk Dokumen Berbahasa Indonesia.[skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Win T T, Mon L Document Clustering by Fuzzy C-Mean Algorithm. IEEE : /10. Ali A Sphinx Search Beginner's Guide. Birmingham, England: Packt Publishing. ISBN Antonius T Penggalian Pola Churn Menggunakan Data Mining pada Institusi Perbankan Nasional. [thesis].jakarta: Program Studi Magister Teknologi Informasi, Universitas Indonesia. 12

21 LAMPIRAN 13

22 Lampiran 1 Gugus kueri dan jawaban dokumen jurnal hortikultura Kueri Uji Dokumen Relevan Dokumen Hasil Temu Kembali cabai merah dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, dok283.txt dok008.txt, dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt, dok169.txt, dok201.txt, dok212.txt, dok223.txt, dok232.txt, buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt dok011.txt, dok089.txt, dok108.txt, dok243.txt dok023.txt, dok110.txt, dok186.txt dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt dok283.txt, dok298.txt dok025.txt, dok064.txt, dok079.txt, dok104.txt, dok106.txt, dok111.txt, dok113.txt, dok115.txt, dok128.txt, dok129.txt, dok131.txt, dok133.txt, dok140.txt, dok145.txt, dok158.txt, dok227.txt, dok234.txt, dok238.txt, dok264.txt, dok286.txt, dok296.txt, dok301.txt dok011.txt, dok089.txt, dok108.txt, dok243.txt dok023.txt, dok110.txt, dok186.txt dok023.txt, dok049.txt, dok109.txt, dok110.txt, dok135.txt, dok161.txt, dok055.txt, dok061.txt, dok196.txt, dok213.txt, dok219.txt, dok228.txt, dok269.txt, dok242.txt, dok248.txt, dok252.txt, dok229.txt, dok280.txt, dok307.txt dok055.txt, dok061.txt, dok070.txt, dok071.txt, dok125.txt, dok126.txt, dok129.txt, dok136.txt, dok283.txt, dok291.txt, dok308.txt dok003.txt, dok015.txt, dok029.txt, dok037.txt, dok045.txt, dok047.txt, dok113.txt, dok179.txt, dok209.txt, dok210.txt, dok224.txt, dok225.txt, dok231.txt, dok232.txt, dok250.txt, dok255.txt, dok257.txt, dok305.txt, dok324.txt dok051.txt, dok069.txt, dok140.txt, dok145.txt, dok247.txt, dok315.txt 14

23 Lanjutan Lampiran 1 Gugus kueri dan jawaban dokumen jurnal hortikultura jagung Kueri Uji Dokumen Relevan Dokumen Hasil Temu Kembali dok051.txt, dok053.txt, dok051.txt, dok053.txt, dok065.txt, dok069.txt, dok065.txt, dok069.txt, dok076.txt, dok108.txt, dok076.txt, dok108.txt, dok137.txt, dok145.txt, dok137.txt, dok145.txt, dok315.txt dok315.txt pupuk npk gladiol tanah latosol lalat buah tunas vaksin dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok056.txt, dok087.txt, dok100.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok189.txt, dok194.txt, dok244.txt dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt dok024.txt, dok080.txt, dok324.txt dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt dok058.txt, dok297.txt, dok313.txt, dok316.txt dok004.txt, dok007.txt, dok012.txt, dok018.txt, dok024.txt, dok056.txt, dok080.txt, dok087.txt, dok094.txt, dok098.txt, dok100.txt, dok153.txt, dok155.txt, dok157.txt, dok160.txt, dok164.txt, dok168.txt, dok188.txt, dok189.txt, dok244.txt dok075.txt, dok099.txt, dok107.txt, dok125.txt, dok193.txt, dok199.txt, dok244.txt, dok245.txt, dok250.txt, dok251.txt, dok252.txt, dok322.txt dok024.txt, dok080.txt, dok324.txt dok064.txt, dok141.txt, dok148.txt, dok296.txt, dok304.txt dok033.txt, dok043.txt, dok044.txt, dok079.txt, dok084.txt, dok090.txt, dok116.txt, dok117.txt, dok127.txt, dok155.txt, dok158.txt, dok161.txt, dok171.txt, dok172.txt, dok189.txt, dok193.txt, dok196.txt, dok205.txt, dok207.txt, dok213.txt, dok219.txt, dok220.txt, dok226.txt, dok228.txt, dok229.txt, dok248.txt, dok286.txt dok058.txt, dok297.txt, dok313.txt, dok316.txt 15

24 Lampiran 2 Hasil analisis kinerja sistem temu kembali dokumen jurnal hortikultura Titik Recall Kueri Uji cabai merah buah tropika padi budidaya anggrek kultur in vitro fungisida genotip hama penggerek jagung pupuk npk gladiol tanah latosol lalat buah tunas vaksin Rata-rata interpolasi maksimum AVP =

25 Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat Kueri Uji Dokumen Relevan Dokumen Hasil Temu Kembali pencernaan 001.txt, 002.txt, 004.txt, 018.txt, 022.txt, 032.txt, 036.txt, 048.txt, 049.txt, 050.txt, 051.txt, 053.txt, 054.txt, 073.txt, 074.txt, 076.txt, 078.txt, 088.txt, 089.txt 001.txt, 002.txt, 004.txt, 007.txt, 018.txt, 022.txt, 027.txt, 032.txt, 033.txt, 035.txt, 036.txt, 048.txt, 049.txt, 050.txt, 051.txt, 053.txt, 054.txt, 059.txt, 063.txt, 065.txt, 070.txt, 072.txt, 073.txt, 074.txt, 076.txt, 078.txt, 079.txt, 081.txt, 085.txt, 088.txt, nyeri radang demam kulit perawatan saluran kemih 003.txt, 008.txt, 016.txt, 021.txt, 029.txt, 031.txt, 033.txt, 038.txt, 039.txt, 043.txt, 046.txt, 056.txt, 062.txt, 063.txt, 066.txt, 077.txt, 081.txt, 084.txt, 085.txt, 086.txt 005.txt, 017.txt, 026.txt, 035.txt, 041.txt, 058.txt, 067.txt, 070.txt, 072.txt, 091.txt 006.txt, 007.txt, 011.txt, 012.txt, 013.txt, 019.txt, 023.txt, 028.txt, 030.txt, 034.txt, 037.txt, 044.txt, 047.txt, 055.txt, 059.txt, 061.txt, 064.txt, 068.txt, 069.txt, 071.txt, 075.txt, 079.txt, 087.txt, 093.txt 009.txt, 025.txt, 042.txt, 057.txt, 080.txt, 090.txt 089.txt 003.txt, 005.txt, 008.txt, 016.txt, 021.txt, 028.txt, 029.txt, 031.txt, 033.txt, 034.txt, 035.txt, 038.txt, 039.txt, 042.txt, 043.txt, 044.txt, 046.txt, 047.txt, 056.txt, 060.txt, 062.txt, 063.txt, 064.txt, 066.txt, 071.txt, 072.txt, 079.txt, 077.txt, 080.txt, 081.txt, 084.txt, 085.txt, 086.txt, 087.txt 002.txt, 005.txt, 006.txt, 008.txt, 015.txt, 017.txt, 018.txt, 019.txt, 021.txt, 023.txt, 026.txt, 030.txt, 031.txt, 032.txt, 033.txt, 034.txt, 035.txt, 037.txt, 038.txt, 039.txt, 041.txt, 043.txt, 046.txt, 047.txt, 050.txt, 054.txt, 055.txt, 056.txt, 058.txt, 059.txt, 061.txt, 062.txt, 064.txt, 067.txt, 068.txt, 070.txt, 072.txt, 073.txt, 074.txt, 076.txt, 079.txt, 081.txt, 084.txt, 086.txt, 087.txt, 090.txt, 091.txt 006.txt, 007.txt, 011.txt, 012.txt, 013.txt, 019.txt, 023.txt, 028.txt, 030.txt, 034.txt, 037.txt, 038.txt, 039.txt, 040.txt, 041.txt, 042.txt, 043.txt, 044.txt, 047.txt, 055.txt, 059.txt, 061.txt, 064.txt, 068.txt, 069.txt, 071.txt, 075.txt, 076.txt, 079.txt, 087.txt, 092.txt, 093.txt 009.txt, 025.txt, 042.txt, 043.txt, 057.txt, 080.txt, 081.txt, 086.txt, 090.txt 17

26 Lanjutan Lampiran 3 Gugus kueri dan jawaban dokumen tanaman obat Kueri Uji Dokumen Relevan Dokumen Hasil Temu Kembali pernapasan 010.txt, 024.txt, 040.txt, 045.txt, 060.txt 010.txt, 013.txt, 016.txt, 020.txt, 024.txt, 026.txt, 040.txt, 045.txt, 060.txt, kronis 014.txt, 015.txt, 020.txt, 027.txt, 052.txt, 065.txt, 082.txt, 083.txt, 092.txt 067.txt 006.txt, 014.txt, 015.txt, 020.txt, 023.txt, 027.txt, 034.txt, 036.txt, 045.txt, 047.txt, 048.txt, 051.txt, 052.txt, 064.txt, 065.txt, 074.txt, 077.txt, 078.txt, 080.txt, 088.txt, 082.txt, 083.txt, 092.txt 18

27 Lampiran 4 Hasil analisis kinerja sistem temu kembali dokumen tanaman obat Titik Recall Kueri Uji kronis kulit nyeri radang demam pencernaan perawatan pernapasan saluran kemih Rata-rata interpolasi maksimum AVP =

28 Lampiran 5 Antarmuka sistem clustering dokumen Lampiran 6 Antarmuka hasil temu kembali dokumen 20

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

CLUSTERING KONSEP DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN BISECTING K-MEANS HIZRY RAMDANI

CLUSTERING KONSEP DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN BISECTING K-MEANS HIZRY RAMDANI CLUSTERING KONSEP DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN BISECTING K-MEANS HIZRY RAMDANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2011 CLUSTERING

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS

PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS PENENTUAN NILAI PANGKAT PADA ALGORITMA FUZZY C- MEANS WULAN ANGGRAENI wulangussetiyo@gmail.com Program Studi Pendidikan Matematika Universitas Indraprasta PGRI Abstract. The purpose of this study was to

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN :

Prosiding Seminar Sains dan Teknologi FMIPA Unmul Vol. 1 No. 2 Desember 2015, Samarinda, Indonesia ISBN : Clustering Data Status Tugas Belajar Dan Ijin Belajar Menggunakan Metode Fuzzy C-Means (Studi Kasus : Di Lingkungan Pemerintah Provinsi Kalimantan Timur) Fevin Triyas Rantika 1, Indah Fitri Astuti, M.Cs

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

KLUSTERING BERBASIS PROTOTIPE DENGAN METODE FUZZY C-MEANS

KLUSTERING BERBASIS PROTOTIPE DENGAN METODE FUZZY C-MEANS JURNAL LOGIC. VOL.15. NO.1 MARET 015 51 KLUSTERING BERBASIS PROTOTIPE DENGAN METODE FUZZY C-MEANS Putu Manik Prihatini Jurusan Teknik Elektro, Politeknik Negeri Bali Bukit Jimbaran, P.O.Box 1064 Tuban

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi

3. METODOLOGI. Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi 3. METODOLOGI A. Kerangka Pemikiran Penelitian dilakukan dalam tiga tahap utama : Persiapan, Evaluasi dan Pembuatan Prototipe Sistem (Gambar 3.1). Tahap Persiapan terdiri dari pengumpulan dokumen, input

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI

METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI METODE PEMBOBOTAN KATA BERBASIS SEBARAN UNTUK TEMU KEMBALI INFORMASI DOKUMEN BAHASA INDONESIA PUTRI DEWI PURNAMA SARI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN

CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN CLUSTERING KARYAWAN BERDASARKAN KINERJA DENGAN MENGGUNAKAN LOGIKA FUZZY C-MEAN Fitri Wulandari, Rinto Setiawan Jurusan Teknik Informatika Fakultas Sains dan Teknologi Universitas Islam Negeri Sultan Syarif

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt

dok023.txt, dok110.txt, dok161.txt, dok196.txt, dok248.txt, dok259.txt LAMPIRAN 13 Lampiran 1 Daftar kueri uji dan dokumen yang relevan Kueri Uji cabai merah buah tropika padi budidaya anggrek Dokumen Relevan dok053.txt, dok059.txt, dok061.txt, dok100.txt, dok124.txt, dok153.txt,

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA

Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Pemanfaatan Metode K-Means Clustering dalam Penentuan Penjurusan Siswa SMA Chandra Purnamaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami No 36 A Surakarta cpurnamaningsih@gmail.com

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015 SILABUS MATAKULIAH Revisi : - Tanggal Berlaku : Januari 2015 A. Identitas 1. Nama Matakuliah : A11. 54823 / 2. Program Studi : Teknik Informatika-S1 3. Fakultas : Ilmu Komputer 4. Bobot sks : 3 SKS 5.

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI

Search Engine. Text Retrieval dan Image Retrieval YENI HERDIYENI Search Engine Text Retrieval dan Image Retrieval YENI HERDIYENI 14 JUNI 2008 Search engine atau mesin pencari merupakan bagian dari teknologi inte rnet yang sangat penting untuk pencarian informasi. Dewasa

Lebih terperinci

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

TEMU KEMBALI INFORMASI

TEMU KEMBALI INFORMASI JULIO ADISANTOSO Departemen Ilmu Komputer IPB Pertemuan 1 Identitas Mata Kuliah Nama Mata Kuliah : Temu Kembali Informasi (TKI) Information Retrieval (IR) Kode Mata Kuliah : KOM431 Koordinator : Julio

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci