EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN

Ukuran: px
Mulai penontonan dengan halaman:

Download "EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN"

Transkripsi

1 EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

2 ABSTRACT YOGA HERAWAN. Feature Extraction of Medicinal Plants using Chi-Square with Naïve Bayes Classifier. Supervised by YENI HERDIYENI. This research presented a system for extracting terms and classifying medicinal plants documents using chi-square and naïve bayes classifier. Term extraction technique was used to make the classifier work efficiently and to increase classification accuracy. The criteria used in this research were the family of medicinal plants and utilization of medicinal plants for medication. The classification results were used to build an information retrieval system of Indonesian medicinal plants. This research used two significance levels for generating critical value, i.e and The experiment result showed that the critical value using significance level of has better accuracy than the critical value using significance level Accuracy of classification system using significance level of were 97.44% for family and 89.74% for utilization of medicinal plants criteria. The information retrieval system tested using 29 queries about family and utilization of medicinal plants. The information retrieval system had an average value generated was 93.26%. Keywords : document classification, naïve bayes classifier, chi square, feature selection, information retrieval. i

3 EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011

4 Judul Nama NIM : Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes : Yoga Herawan : G Menyetujui: Pembimbing Dr. Yeni Herdiyeni, S.Si., M.Kom. NIP Mengetahui: Ketua Departemen Ilmu Komputer Institut Pertanian Bogor Dr. Ir. Sri Nurdiati, M.Sc. NIP Tanggal Lulus :

5 PRAKATA Puji dan syukur penulis panjatkan kehadirat Allah SWT yang senantiasa memberikan rahmat dan hidayah-nya sehingga penulis dapat menyelesaikan tulisan ini dengan judul: Ekstraksi Ciri Dokumen Tumbuhan Obat Menggunakan Chi-Kuadrat dengan Klasifikasi Naive Bayes. Shalawat dan salam disampaikan kepada Nabi Muhammad SAW beserta keluarga, sahabat, dan pengikutnya yang tetap berada di jalan-nya hingga akhir zaman. Selama penelitian, penulis menyadari bahwa banyak pihak yang ikut membantu sehingga skripsi ini dapat diselesaikan, oleh karena itu penulis ingin menyampaikan ucapan terima kasih kepada: 1. Kedua orang tua tercinta serta kedua saudaraku tercinta, Herlina Pratiwi dan Prima Adi Pradana, atas doa dan semangat yang diberikan. 2. Ibu Dr. Yeni Herdiyeni, S.Si, M.Kom selaku pembimbing akademis yang telah memberikan banyak bantuan, kemudahan, saran dan ilmu kepada penulis. 3. Bapak Ir. Julio Adisantoso, M.Kom. dan Bapak Sony Hartono Wijaya, S.Kom., M.Kom. selaku dosen penguji atas kemudahan dan ilmu yang telah diberikan kepada penulis. 4. Sahabat sekaligus kakak bagi penulis, Febi Damiko, Bang Pram, Bang Khamsi, yang telah berbagi cerita suka dan duka, ilmu serta saran dan diskusi yang sangat membangun pola pikir penulis. 5. Sahabat-sahabat terbaik dari Ilkomerz44 Kristina Paskianti, Iyos Kusmana, Khamdan Amin, Danar Setya P, Mukhlis Said, Arizal Notyasa, Akbar Jowo, Akbar masbero, Imadudin ijah ayi, Agus Alay Umriadi dan Devi Dian Pramana Putra yang telah berbagi cerita suka dan duka bersama selama penulis menjadi mahasiswa. 6. Teman-teman J.Co Basketball FC, Amboro Rintoko, Bayu Chandra Winata, Akbar jowo, Mudho, atas jalinan persahabatan, semangat dan optimisme, serta keceriaan yang dilalui bersama penulis selama penulis menjadi mahasiswa. 7. Teman-teman satu bimbingan Kristina, Iyos, Fanni Cicin, Fanni Culun, Wido, Dimpy, Ella, Pak Rico, mbak Putri dan mbak Vira atas saran, masukan dan nasihat yang diberikan kepada penulis. 8. Irma Amalia Pratiwi yang selalu memberikan dorongan semangat dan doa kepada penulis. Penulis menyadari bahwa masih banyak kekurangan yang ditemukan dalam tugas akhir ini. Penulis berharap adanya saran dan kritik yang membangun dari semua pihak yang membaca tulisan ini. Semoga tulisan ini bermanfaat dan dapat menambah wawasan ilmu pengetahuan bagi penulis khususnya dan pembaca umumnya. Bogor, September 2011 Yoga Herawan

6 RIWAYAT HIDUP Penulis dilahirkan di Wonogiri pada tanggal 30 Juli 1989 dari pasangan Ir. Slamet Sardjito dan Rahayu Dwi Hastuti. Penulis merupakan anak kedua dari tiga bersaudara. Penulis menempuh pendidikan dasar di SD Negeri Wonogiri VII, SMP Negeri 1 Wonogiri. Tahun 2007 penulis lulus dari SMA Negeri 1 Wonogiri dan pada tahun yang sama penulis masuk Institut Pertanian Bogor (IPB) melalui jalur Ujian Saringan Masuk IPB (USMI). Penulis masuk Program S1 Ilmu Komputer, Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Pada bulan Juli-Agustus 2010 penulis berkesempatan melaksanakan kegiatan Praktik Kerja Lapangan di Balai Penelitian Tanaman Obat dan Aromatik, Bogor. Selama menjadi mahasiswa penulis juga pernah menjadi asisten praktikum Basis Data, Sistem Pakar dan Sistem Informasi. iv

7 DAFTAR ISI Halaman DAFTAR GAMBAR... vi DAFTAR TABEL... vi DAFTAR LAMPIRAN... vi PENDAHULUAN... 1 Latar belakang... 1 Tujuan... 1 Ruang lingkup... 1 Manfaat... 1 TINJAUAN PUSTAKA... 1 Temu kembali informasi... 1 Klasifikasi... 2 Pemilihan fitur dokumen... 2 Keputusan statistik dan hipotesis statistik... 2 Chi-kuadrat ( )... 2 Document frequency thresholding (DF)... 4 Naive Bayes classifier... 4 Confusion matrix... 5 Recall precision... 5 SphinxSearch... 5 Pembobotan BM METODE PENELITIAN... 6 Dokumen tumbuhan obat... 6 Praproses data... 8 Pembagian data... 8 Pemilihan fitur... 8 Klasifikasi Naïve Bayes... 8 Temu kembali informasi... 9 Evaluasi model klasifikasi... 9 Evaluasi sistem temu kembali... 9 Lingkungan pengembangan sistem... 9 HASIL DAN PEMBAHASAN Praproses Pemilihan fitur Pengujian kinerja sistem KESIMPULAN DAN SARAN Kesimpulan Saran DAFTAR PUSTAKA v

8 DAFTAR GAMBAR Halaman 1. Distribusi chi-kuadrat Tahapan penelitian Format koleksi dokumen 8 4. Rataan waktu proses klasifikasi pada setiap pemilihan nilai kritis (chi-kuadrat) Rataan waktu proses klasifikasi pada setiap pemilihan nilai threshold (df) Akurasi sistem klasifikasi Grafik recall precision kueri uji DAFTAR TABEL Halaman 1. Tabel kontingensi antara kata terhadap kelas 3 2. Nilai kritis χ2 untuk tingkat signifikansi α Confusion matrix untuk klasifikasi biner Distribusi dokumen penyakit 7 5. Distribusi dokumen family Kumpulan kueri uji.. 9 DAFTAR LAMPIRAN Halaman 1. Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu Confusion matrix untuk kelas family (berdasarkan pemilihan fitur chi-kuadrat pada nilai signifikansi 0,001) Confusion matrix untuk kelas penyakit (berdasarkan pemilihan fitur chi-kuadrat pada nilai signifikansi 0,001) 18 vi

9 Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium Konservasi Tumbuhan, Fakultas Kehutanan IPB telah mendata bahwa tidak kurang dari spesies tumbuhan obat berasal dari hutan Indonesia (Zuhud 2009). Kandungan kimia yang terdapat dalam jenis tumbuhan obat tersebut mendorong peneliti untuk melakukan penelitian tentang penyakit yang dapat diobati dari suatu jenis tumbuhan obat tertentu. Melalui media cetak dan elektronik hasil penelitian tersebut didokumentasikan untuk diinformasikan kepada masyarakat. Internet membuat dokumentasi elektronik tersebar dengan mudah di dalam maupun luar negeri. Mesin pencari internet digunakan oleh pengguna di seluruh dunia untuk mencari informasi terkait tumbuhan obat yang dikehendaki. Banyaknya jumlah dokumentasi elektronik tersebut mempengaruhi kinerja mesin pencari dalam mengembalikan dokumen yang relevan terhadap keinginan pengguna. Untuk meningkatkan kinerja mesin pencari diperlukan sistem pengelolaan dokumen yang lebih baik dari sebelumnya. Untuk itu diperlukan sistem klasifikasi dokumen secara otomatis. Salah satu teknik klasifikasi dokumen adalah Naïve Bayes. Naïve Bayes merupakan classifier sederhana yang didasarkan pada penerapan teorema Bayes. Kelebihan teknik ini adalah mampu mengklasifikasikan dokumen dengan tepat serta mudah dalam pengimplementasiannya (Thabtah 2009). Dalam jangka panjang, dokumen penelitian yang akan terindeks semakin bertambah seiring berjalannya waktu. Kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen saja, hal tersebut dikarenakan sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain Document Frequency Thresholding (DF), Information Gain (IG), Mutual Information (MI), Term strength (TS) dan Chi-square testing (X 2 ) (Yimming 2003). Chi-square merupakan teknik pemilihan fitur dokumen yang sangat efektif untuk memilih kata penciri suatu dokumen namun tidak menurunkan akurasi sistem klasifikasi (Yimming 1997). Document frequency thresholding merupakan teknik yang sederhana untuk mengurangi jumlah kata yang akan diproses. Teknik Document frequency thresholding mudah untuk diimplementasikan (Yimming 1997). Penelitian ini akan membandingkan kinerja pemilihan fitur dokumen antara teknik chi-kuadrat dan teknik document thresholding frequency (df) yang kemudian dilakukan pembangunan sistem klasifikasi Naïve Bayes untuk mengklasifikasikan dokumen tumbuhan obat Indonesia. Dalam penelitian ini, sistem klasifikasi akan mengklasifikasikan dokumen berdasarkan kategori family tumbuhan obat dan penyakit yang dapat disembuhkan oleh suatu jenis tumbuhan obat. Hasil klasifikasi tersebut kemudian akan digunakan untuk membangun sistem mesin pencari dokumen. Tujuan Tujuan penelitian ini adalah mengembangkan sistem temu kembali informasi tumbuhan obat yang bekerja berdasarkan hasil pemilihan fitur dokumen serta Naïve Bayes sebagai penglasifikasi dokumen. Ruang lingkup Ruang lingkup penelitian ini meliputi : 1. Dokumen terbatas pada 32 jenis tumbuhan obat Indonesia (Lampiran 1). 2. Dokumen yang digunakan berformat XML. 3. Sistem menglasifikasikan dokumen berdasarkan penyakit yang dapat disembuhkan dan family dari suatu tumbuhan obat tertentu. Manfaat Manfaat dari penelitian ini adalah mempercepat dan mempermudah pengguna dalam mencari informasi tentang tumbuhan obat Indonesia. TINJAUAN PUSTAKA Temu kembali informasi Sistem temu kembali informasi (Information retrieval system) merupakan sistem pencari pada sekumpulan dokumen 1

10 elektronik yang memenuhi kebutuhan informasi tertentu (Manning et al. 2008). Sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi. Temu kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR System), sehingga kueri tersebut merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan terhadap kueri (Baeza-Yates & Ribeiro-Neto 1999). Klasifikasi Klasifikasi adalah proses untuk menentukan kelas dari suatu objek tertentu. Pada klasifikasi dokumen, permasalahan yang muncul adalah sebagai berikut: diberikan sebuah deskripsi d X dari sebuah dokumen dimana X merupakan ruang dokumen. Sebuah himpunan tetap kelas { }, dengan menggunakan algoritme pembelajaran, dilakukan proses pembelajaran terhadap fungsi klasifikasi sehingga dapat memetakan dokumen pada kelas C. Proses klasifikasi dibagi menjadi dua tahap, yaitu tahapan pembelajaran dan pengujian. Pada tahap pembelajaran, sebagian data yang telah diketahui kelasnya (data latih) digunakan untuk membuat model klasifikasi. Tahap pengujian menguji data uji dengan model klasifikasi untuk mengetahui akurasi model klasifikasi tersebut. Jika akurasi cukup maka model tersebut dapat digunakan untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006). Pemilihan fitur dokumen Pemilihan fitur dokumen merupakan suatu proses memilih sebanyak kata terbaik. Kata tersebut merupakan himpunan dari semua kata yang ada pada data latih. Dalam penelitian ini, data dari himpunan tersebut akan digunakan sebagai penciri dokumen yang akan diklasifikasikan. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses penghilangan fitur akan dihilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et all 2008). Keputusan statistik dan hipotesis statistik Keputusan yang diambil berdasarkan informasi sampel yang didapatkan dari data disebut keputusan statistik. Sebagai contoh keputusan statistik adalah ketika akan memutuskan berdasarkan data sampel apakah suatu serum baru benar-benar efektif dalam menyembuhkan suatu penyakit, apakah suatu prosedur pendidikan lebih baik dari prosedur pendidikan lainnya. Untuk mencapai suatu keputusan, diperlukan asumsi awal tentang populasi yang terlibat yang kemudian disebut sebagai hipotesis statistik. Hipotesis umumnya merupakan pernyataan umum yang berkaitan dengan distribusi probabilitas dari populasi. Hipotesis diperlukan untuk menentukan apakah hasil yang diduga cenderung untuk benar. Hipotesis nol (H 0 ) menyatakan bahwa tidak ada perbedaan di dalam hasil yang sedang diperiksa atau disebut juga nol pengaruh (zero effect). Chi-kuadrat ( ) Chi-kuadrat ( ) merupakan pengujian hipotesis mengenai perbandingan antara frekuensi sampel yang benar-benar terjadi (kemudian disebut frekuensi observasi) dengan frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (selanjutnya disebut dengan frekuensi harapan. Sampel berukuran N diambil dari suatu populasi normal berdeviasi standar σ. Untuk setiap sampel dihitung nilai sehingga diperoleh distribusi sampling untuk yang disebut distribusi chi-kuadrat. Distribusi chi-kuadrat tergantung pada satu parameter, yaitu derajat kebebasan (d.f). Persamaan 1 digunakan untuk menghitung besarnya jumlah derajat bebas dari suatu kasus. Persamaan 2 digunakan untuk 2

11 menghitung derajat bebas saat menggunakan tabel kontingensi dengan N adalah ukuran sampel yang diambil, R adalah jumlah baris dan C adalah jumlah kolom. Distribusi chi-kuadrat untuk berbagai nilai diperlihatkan pada Gambar 1. Gambar 1 menunjukkan bahwa masingmasing distribusi merupakan distribusi probabilitas, sehingga luas di bawah kurva bernilai 1. Gambar 1 Distribusi chi-kuadrat. Pengaruh antara frekuensi sampel dan frekuensi harapan dapat diuji menggunakan suatu hipotesis H 0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara frekuensi observasi dengan frekuensi harapan. Pengujian hipotesis dilakukan pada tingkat signifikansi tertentu. Tingkat signifikansi yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004). Penghitungan nilai chi-kuadrat yang digunakan untuk melakukan pengujian perbedaan antara pola frekuensi observasi ( ), dengan frekuensi harapan ( ) ditunjukkan pada Persamaan 3. Berdasarkan nilai chi-kuadrat tersebut dapat diambil suatu keputusan statistik apakah terjadi perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H 0 ) diterima jika nilai penghitungan < nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Hipotesis nol (H 0 ) ditolak jika nilai penghitungan > nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Pada penelitian ini, mengukur derajat kebebasan antara kata penciri dengan kelas agar dapat dibandingkan dengan persebaran nilai (Mesleh 2007). Chi-kuadrat mengevaluasi korelasi antara dua variabel dan kemudian menentukan apakah saling bebas atau berhubungan sesuai dengan nilai pada tabel chi. Penghitungan nilai chi-kuadrat pada setiap kata yang muncul pada setiap kelas dapat dibantu dengan menggunakan tabel kontingensi. Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 menunjukkan tabel kontingensi antara kata terhadap kelas. Apabila frekuensi harapan pada kata dan kelas q adalah E pq, banyaknya frekuensi observasi dalam dokumen adalah, maka peluang dan dapat digunakan untuk menghitung frekuensi harapan yang diperoleh dengan rumus pada Persamaan 4: dengan nilai peluang kata dan peluang kelas: Tabel 1 Tabel kontingensi antara kata terhadap kelas Kata Kelas Kelas = 1 Kelas = 0 Kata = 1 A B Kata = 0 C D Penghitungan nilai chi-kuadrat berdasarkan tabel kontingensi tersebut disederhanakan dalam Persamaan 5. dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, merupakan jumlah dokumen latih, merupakan banyaknya dokumen pada kelas yang memuat kata, merupakan banyaknya dokumen yang tidak berada di namun memuat kata, merupakan banyaknya dokumen yang berada di kelas namun tidak memiliki kata di dalamnya, serta merupakan banyaknya dokumen yang bukan ) 3

12 merupakan dokumen kelas memuat kata. dan tidak Pengambilan keputusan dilakukan berdasarkan nilai dari masing-masing kata. Kata yang memiliki nilai di atas nilai kritis pada tingkat signifikansi α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas. Nilai kritis untuk tingkat signifikansi α ditunjukkan oleh Tabel 2. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu ditunjukkan dalam Lampiran 2. Tabel 2 Nilai kritis signifikansi α α 0,1 0,05 0,01 0,005 0,001 untuk tingkat Nilai Kritis 2,71 3,84 6,63 7,83 10,83 Document frequency thresholding (DF) Document frequency thresholding (df) merupakan jumlah dokumen pada setiap kata unik yang muncul. Penghitungan df akan menghitung kemunculan kata unik dalam suatu kumpulan dokumen latih. Untuk menentukan bahwa kata tersebut berpengaruh terhadap suatu kumpulan dokumen, digunakan nilai threshold (Yimming 1997). Penentuan nilai threshold dilakukan dengan melihat sebaran kata dalam keseluruhan dokumen latih. Kata yang memiliki nilai df di atas nilai threshold yang telah ditentukan merupakan kata yang berpengaruh pada sekumpulan dokumen latih. Kata dengan nilai df yang rendah merupakan kata yang jarang muncul dalam koleksi dokumen latih. Dengan demikian, kata tersebut dianggap sebagai noise dalam data latih. Naive Bayes classifier Metode klasifikasi Naïve Bayes adalah salah satu metode klasifikasi yang mengasumsikan seluruh atribut dari contoh yang bersifat independen satu sama lain pada konteks kelas (McCallum & Nigam 1998). Meskipun secara umum asumsi tersebut merupakan asumsi yang buruk, pada praktiknya metode Naïve Bayes menunjukkan kinerja yang sangat baik (Rish 2001). Menurut Manning (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut. Klasifikasi Naïve Bayes termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini sebuah dokumen terdiri atas beberapa kejadian kata. Berdasarkan asumsi Bayes, kemungkinan tiap kejadian kata dalam tiap dokumen adalah bebas, tidak terpengaruh dengan konteks kata dan posisi kata dalam dokumen. Berdasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P ditunjukkan pada Persamaan 6: dengan P(d c) adalah peluang kemunculan dokumen d di kelas c, adalah peluang awal suatu dokumen masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d dapat diabaikan karena memiliki nilai yang sama untuk seluruh kelas c, sehingga Persamaan 6 dapat disederhanakan dalam Persamaan 7: Rumus untuk menghitung nilai peluang dokumen masuk ke dalam kelas c dan peluang kemunculan dokumen d berada pada kelas c adalah dengan N c adalah banyaknya dokumen dalam kelas c, N adalah total dokumen, T cd adalah banyaknya d dalam dokumen latih dari kelas c. Menurut Manning et al. (2008) kelas yang paling sesuai bagi dokumen d adalah kelas yang memiliki nilai paling tinggi yaitu seperti ditunjukkan pada Persamaan 8: 4

13 Nilai peluang awal dapat diestimasi dengan melihat jumlah dokumen yang dimiliki oleh kelas c relatif terhadap jumlah seluruh dokumen yang ada. Nilai peluang awal diestimasi secara berbeda untuk setiap model Naïve Bayes (Metsis et al. 2006). Confusion matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan salah oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005). Data uji diujikan untuk mendapatkan tingkat akurasi hasil prediksi yang berupa jumlah true positive, true negative, false positive, dan false negative seperti yang dilihat pada Tabel 3 (Rachman 2011). Tabel 3 Confusion matrix untuk klasifikasi biner Actual Class Predicted Class Class = 1 Class = 0 Class = 1 F11 F10 Class = 0 F01 F00 Keterangan untuk Tabel 3 dinyatakan sebagai berikut : F11, yaitu jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1. F00, yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0. F01, yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1. F10, yaitu jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0. Perhitungan akurasi dinyatakan dalam Persamaan 9. Recall precision Recall Precision adalah kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. Recall adalah rasio jumlah dokumen relevan yang ditampilkan (retrieve) terhadap jumlah seluruh dokumen yang relevan. Precision adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning 2008). Perhitungan recallprecision dijelaskan pada Persamaan 10 dan Persamaan 11 berikut. (10) (11) Menurut Baeza-Yates dan Ribeiro- Neto (1999), algoritme temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda, akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Persamaan 12 merupakan formula untuk menghitung AVP. ( ) Asumsi, P (r j ) adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan adalah precision pada level recall r untuk kueri ke-i. SphinxSearch Sphinx adalah platform search engine yang didistribusikan pada GPL versi 2. Secara teknis, Sphinx merupakan perangkat lunak yang menyediakan fungsionalitas pencarian teks secara cepat dan relevan pada aplikasi yang berjalan di lingkungan klien. Sphinx telah dirancang khusus untuk berintegrasi dengan database SQL dan bahasa pemrograman tertentu (STI 2008). Sphinx memiliki dua jenis fungsi pembobotan, yaitu phase rank dan statistical rank. Phase rank adalah fungsi pembobotan berdasarkan panjang kata antara tubuh dokumen dan frasa kueri. Statistical rank adalah fungsi pembobotan berdasarkan frekuensi kata dalam dokumen. Salah satu mode pembobotan berdasarkan statistical rank adalah BM25. 5

14 Pada tahap pembangunan sistem temu kembali informasi, terlebih dahulu dilakukan pemrosesan dokumen dengan menggunakan SphinxSearch. Langkah yang dilakukan pertama kali yaitu melakukan pengindeksan ke semua koleksi dokumen. Proses pengeindeksan menghasilkan file hash. Perintah yang diberikan untuk melakukan pengindeksan koleksi dokumen adalah sebagai berikut: C:\Sphinx\bin\indexer.exe --config C:\Sphinx\sphinxDb.conf --all Langkah selanjutnya yaitu pembuatan service pada windows dengan nama SphinxSkripsi yang dapat dibuat dengan perintah sebagai berikut: C:\Sphinx\bin> C:\Sphinx\bin\searchd install config C:\Sphinx\sphinxDb.conf servicename SphinxSkripsi Service pada windows berguna untuk mencari hasil pengindeksan yang berupa file hash. Pembobotan BM25 Metode BM25 merupakan metode pembobotan kata yang memeringkatkan setiap kumpulan dokumen yang didasarkan pada kata dalam kueri yang muncul pada setiap dokumen. Rumus dalam menghitung skor pada algoritme BM25 ditunjukkan pada Persamaan 13 berikut (13) Persamaan 13 menjelaskan bahwa merupakan term frequency pada dokumen D, D merupakan banyaknya kata dalam dokumen D, dan avg dl merupakan rata-rata panjang dokumen dalam kumpulan teks dari dokumen tersimpan. k 1 dan b merupakan parameter bebas dimana nilai yang biasa dipilih untuk k 1 =2,0 dan b=0,75. IDF(q i ) merupakan bobot dari kata q i. Rumus untuk menghitung IDF ditunjukkan pada Persamaan 14 sebagai berikut METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 2. Data yang diproses dalam sistem ini adalah koleksi dokumen. Input lain yang digunakan adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada tahapan praproses. Tahap selanjutnya adalah dilakukan proses pemilihan fitur pada dokumen latih, kemudian hasilnya digunakan sebagai landasan dalam pembuatan vector space model. Vector space model digunakan untuk melakukan pembobotan terhadap kata sehingga akan merepresentasikan dokumen ke dalam bentuk vektor. Tahapan berikutnya adalah melakukan klasifikasi Naïve Bayes pada dokumen uji yang belum diketahui kelasnya. Tahapan ini bertujuan untuk membangun model klasifikasi yang berupa indeks klasifikasi. Tahapan selanjutnya setelah model klasifikasi terbentuk yaitu pembangunan sistem temu kembali informasi yang akan mencari informasi berdasarkan hasil klasifikasi pada sistem. Pada tahap akhir, dilakukan evaluasi terhadap kinerja sistem klasifikasi dan kinerja sistem sistem temu kembali informasi yang dihasilkan. Dokumen tumbuhan obat Penelitian ini menggunakan koleksi dokumen tumbuhan obat sebagai korpus. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki. Koleksi dokumen tumbuhan obat berjumlah 132 dokumen yang diperoleh dari buku-buku berikut: 1. Atlas Tumbuhan Obat Indonesia Jilid 1. Oleh dr. Setiawan Dalimartha 2. Atlas Tumbuhan Obat Indonesia Jilid 2. Oleh dr. Setiawan Dalimartha 3. Atlas Tumbuhan Obat Indonesia Jilid 3. Oleh dr. Setiawan Dalimartha 4. Obat Asli Indonesia Oleh Dr. Seno Sastroamidjojo 5. Ensiklopedi Millenium Jilid 1: Tumbuhan Berkhasiat Obat Indonesia. 6. Tumbuhan Obat dan Khasiatnya. Oleh Drs. H. Arief Hariana. dimana N merupakan banyaknya koleksi dokumen, dan merupakan jumlah dokumen yang memuat kata q i. 6

15 Klasifikasi Data latih Pemilihan fitur Klasifikasi Naïve Bayes Kueri Temu Kembali Informasi Selesai Mulai Dokumen tumbuhan obat Praproses data Pembagian data Gambar 2 Tahapan penelitian. Data uji Index klasifikasi Index klasifikasi Temu kembali informasi Peringkat dokumen Evaluasi Klasifikasi dokumen dikategorikan ke dalam kategori kelas family dan kategori penyakit. Pemilihan kategori tersebut karena kedua informasi mengenai family tumbuhan obat dan penyakit yang dapat disembuhkan oleh suatu jenis tumbuhan obat adalah informasi yang sering dicari. Tabel 4 menjelaskan distribusi dokumen pada kategori kelas penyakit untuk setiap kelasnya. Tabel 5 menjelaskan distribusi dokumen pada kategori kelas family untuk setiap kelasnya. Koleksi dokumen bertipe file.txt dengan contoh format dokumen yang terdapat pada Gambar 3. Dokumen dikelompokkan ke dalam tag sebagai berikut: <DOK></DOK>, tag ini mewakili keseluruhan dokumen dan melingkupi tag-tag lain yang lebih spesifik. <ID></ID>, tag ini menunjukkan ID dari dokumen. <NAMA></NAMA>, tag ini menunjukkan nama dari suatu jenis tanaman obat. <NAMAL></NAMAL>, tag ini menunjukkan nama latin dari tanaman obat. <DESKRIPSI></DESKRIPSI>, tag ini mewakili isi dari dokumen meliputi deskripsi tanaman dan kegunaannya. <FAM></FAM>, tag ini menunjukkan nama family dari tanaman obat. <PENYAKIT></PENYAKIT>, tag ini menunjukkan penyakit yang dapat disembuhkan dari jenis tumbuhan obat. Tabel 4 Distribusi dokumen penyakit No Kelas Kronis Kulit Nyeri-radang-demam Pencernaan Perawatan Pernapasan saluran Kemih Tabel 5 Distribusi dokumen family No Kelas Achantaceae Agavaceae Amaranthaceae Apiaceae Apocynaceae Araliaceae Bromeliaceae Crassulaceae Euphorbiaceae Lamiaceae Menispermaceae Moraceae Myrtaceae Pandanaceae Portulacaceae Rutaceae Smilacaceae Jumlah Dokumen Jumlah Dokumen

16 Gambar 3 Format koleksi dokumen. Praproses data Tahap praproses diawali dengan lowercasing, tokenisasi, dan pembuangan stopwords. Lowercasing adalah proses untuk mengubah semua huruf mejadi huruf noncapital agar menjadi case-insensitive pada saat dilakukan pemrosesan teks dokumen. Tokenisasi adalah suatu tahap pemrosesan teks input yang dibagi menjadi unit-unit kecil yang disebut token atau term, yang dapat berupa suatu kata atau angka. Token yang dimaksud dalam penelitian ini adalah kata atau term. Proses tokenisasi dilakukan sesuai dengan aturan berikut : <dok> <id>6</id> <nama>kumis Kucing</nama> <namal>orthosiphon aristatus (Bl.) Miq.</namal> <deskripsi>famili : Lamiaceae. Nama Lokal : Kumis kucing,... </deskripsi> <fam>lamiaceae</fam> <penyakit>saluran Kemih</penyakit> </dok> Teks dipotong menjadi token. Karakter yang dianggap sebagai karakter pemisah token didefinisikan dengan ekspresi regular berikut : /[\s\-+\/*0-9%,.\"\];()\':=`?\[!@><]+/ Token yang terdiri atas karakter numerik saja tidak diikutsertakan Besar kecilnya karakter dari token dipertahankan atau tidak dilakukan penyeragaman. Stopwords merupakan daftar kata-kata yang dianggap tidak memiliki makna. Kata yang tercantum dalam daftar ini dibuang dan tidak ikut diproses pada tahap selanjutnya. Kata-kata yang termasuk dalam stopwords pada umumnya merupakan kata-kata yang sering muncul di setiap dokumen sehingga kata tersebut tidak dapat digunakan sebagai penciri suatu dokumen. Pembagian data Dokumen tumbuhan obat yang telah melewati tahap praproses data kemudian dibagi menjadi dua, yaitu data latih dan data uji dengan persentasi 70:30. Sebanyak 93 dokumen digunakan sebagai dokumen latih dan 39 dokumen sebagai dokumen uji. Tiap kelas dalam koleksi memiliki jumlah yang relatif sama. Data latih digunakan sebagai input pelatihan pengklasifikasi Naive Bayes, sedangkan data uji digunakan untuk menguji model hasil pelatihan Naive Bayes. Pemilihan fitur Hasil dari tahap praproses adalah vector term yang kemudian akan dilakukan pemilihan fitur. Pemilihan fitur memiliki dua tujuan, yaitu mengurangi jumlah kata yang digunakan dan meningkatkan akurasi hasil klasifikasi (Manning 2008). Fitur inilah yang kemudian digunakan pada tahap klasifikasi dokumen. Pada penelitian ini, pemilihan fitur dilakukan dengan dua metode yaitu uji chikuadrat dan document thresholding frequency(df). Teknik pemilihan fitur yang terbaik di antara kedua teknik tersebut kemudian digunakan sebagai teknik yang digunakan pengembangan sistem. Teknik chi-kuadrat memilih fitur berpengaruh dengan menghitung nilai antara kata dengan kelas yang dinyatakan dalam Persamaan 5. Pemilihan fitur dilakukan pada dua tingkat signifikansi, yaitu 0.01 dan Kata yang terpilih pada tingkat signifikansi adalah kata yang memiliki nilai diatas nilai kritis 6.63, sedangkan kata yang terpilih pada tingkat signifikansi adalah kata yang memiliki nilai di atas nilai kritis Teknik df memilih fitur berpengaruh dengan cara menerapkan nilai threshold pada penghitungan jumlah kata yang muncul dalam koleksi dokumen latih. Nilai threshold yang digunakan dalam penelitian ini adalah threshold 3 dan 8. Kata yang terpilih dalam pemilihan fitur df, merupakan kata yang memiliki nilai penghitungan df diatas nilai threshold yang sedang digunakan. Fitur yang dihasilkan pada tahapan pemilihan fitur akan digunakan untuk membuat vector space model. Model terdiri atas beberapa dokumen yang direpresentasikan sebagai vektor dari frekuensi kemunculan fitur. Klasifikasi Naïve Bayes Hasil matriks kata pada vector space model digunakan pada sistem klasifikasi untuk menglasifikasikan dokumen baru. Tahapan pertama yang dilakukan adalah menghitung peluang kata terhadap dokumen latih yang mencerminkan suatu kelas. Pada saat melakukan penghitungan tf, dilakukan juga penghitungan jumlah kata unik dalam 8

17 dokumen latih, dan penghitungan jumlah kata yang terdapat pada dokumen yang berada dalam satu kelas yang sama. Nilai peluang kata yang didapat kemudian digunakan untuk melakukan penghitungan Naïve Bayes pada dokumen uji untuk setiap kelasnya. Kemudian diambil nilai peluang yang terbesar pada nilai penghitungan Naïve Bayes. Nilai tersebut merupakan kelas dari dokumen uji tersebut. Temu kembali informasi Model klasifikasi yang telah terbentuk kemudian digunakan pada sistem temu kembali informasi untuk ditemukembalikan. Tujuan temu kembali ini adalah agar pengguna mendapatkan informasi dengan lebih mudah dan terstruktur. Sistem temu kembali informasi melakukan pengindeksan dokumen sumber (corpus) hanya pada kelas tertentu saja berdasarkan kuerinya. Pembobotan BM25 digunakan untuk menghitung bobot kedekatan kueri dengan dokumen koleksi. Penghitungan pembobotan BM25 telah dijelaskan seperti pada Persamaan 13 dan Persamaan 14. Evaluasi model klasifikasi Evalusi kinerja model penglasifikasi Naive Bayes dilakukan dengan menghitung persentase ketepatan suatu dokumen tumbuhan obat masuk ke dalam kelas tertentu. Evaluasi untuk model penglasifikasi Naive Bayes dinyatakan dalam bentuk confusion matrix. Penghitungan nilai akurasi terhadap model klasifikasi diperoleh melalui Persamaan 9. Evaluasi sistem temu kembali Evaluasi kinerja sistem temu kembali informasi dilakukan dengan menghitung nilai recall dan precision dari 29 kueri yang diujikan pada sistem. Kueri uji ditentukan dengan cara memilih kata-kata yang mewakili isi setiap tumbuhan obat. Kata-kata tersebut menceritakan tentang penyakit yang dapat disembuhkan, kandungan kimia dalam suatu tumbuhan obat, karakteristik fisik tumbuhan obat tertentu, dan cara penggunaan suatu tumbuhan obat tertentu. Tabel 6 menunjukkan rincian kueri uji. Penghitungan nilai recall precision yang dinyatakan dalam Persamaan 10 dan Persamaan 11 dilakukan untuk melihat tingkat efektifitas proses temu kembali informasi terhadap suatu kueri. Penghitungan AVP dinyatakan dalam Persamaan 12. Tabel 6 Kumpulan kueri uji No Kueri 1 Kanker 2 Flu 3 Diabetes 4 Pusing 5 Merambat 6 Menjari 7 Bergerigi 8 Menyirip 9 Vitamin 10 Antioksidan 11 Protein 12 Kalsium 13 Diseduh 14 Ditumbuk 15 Diperas 16 Batuk Pilek 17 Kencing Batu 18 Datang Bulan 19 Gatal-gatal 20 Sesak Nafas 21 Tumbuhan Merambat 22 Tanaman Hias 23 Daun Elips 24 Buah Buni 25 Kalsium Oksalat 26 Zat Warna 27 Obat Diseduh 28 Obat Ditumbuk 29 Buah Diperas Lingkungan pengembangan sistem Penelitian ini menggunakan perangkat lunak dan perangkat keras dengan spesifikasi adalah sebagai berikut : 1. Perangkat Lunak : Sistem operasi Microsoft Windows XP Notepad++ sebagai code editor Server XAMPP Perangkat lunak MySQL untuk database Web Browser (melalui Local Area Connection): Mozilla Firefox 2. Perangkat Keras : Intel Pentium Core Ghz 9

18 Memory 2990MB RAM Harddisk dengan kapasitas sisa 300GB Monitor resolusi 1366 x 768 pixel Mouse dan keyboard Praproses HASIL DAN PEMBAHASAN Pengindeksan dokumen latih yang keseluruhan berjumlah 93 dokumen menghasilkan dan kata yang berupa kata unik yang ditemui di setiap dokumen dalam keseluruhan dokumen latih. Pemilihan fitur Vektor kata unik yang telah dihasilkan dari tahapan praproses kemudian diproses pada tahap pemilihan fitur. Tahapan pemilihan fitur dokumen diujikan terhadap dua teknik berbeda. Teknik pemilihan fitur dokumen yang pertama adalah dengan teknik chi-kuadrat. Pada teknik pemilihan fitur berikutnya adalah dengan menggunakan teknik document frequency thresholding (DF). a. Chi-kuadrat (χ 2 ) Pemilihan fitur dengan teknik chikuadrat dilakukan pada dua nilai signifikansi (Tabel 2). Berdasarkan teori terpenuhinya hipotesis, nilai signifikansi 0,001 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai χ 2 diatas 10,83. Nilai signifikansi 0,01 diartikan sebagai kriteria kata yang dipilih adalah untuk setiap kata yang memiliki nilai χ 2 diatas 6,63. Hasil dari tahapan ini adalah kata unik pada pemilihan nilai signifikansi 0,01 dan kata unik pada pemilihan nilai signifikansi 0,001. Kumpulan kata yang dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah pada sistem klasifikasi. Klasifikasi dokumen pada nilai signifikansi 0,01 dan 0,001 memiliki akurasi yang sama besar yaitu 97,44% untuk kategori family dan 89,74% untuk kategori penyakit (Gambar 6). Pengaruh nyata yang diberikan oleh teknik pemilihan fitur dokumen terlihat pada lama waktu pemrosesan suatu dokumen uji hingga diklasifikasikan ke dalam kelas yang tepat. Gambar 4 menunjukkan waktu rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap nilai signifikansi yang digunakan. Gambar 4 menjelaskan bahwa waktu rata-rata yang digunakan untuk memproses satu dokumen uji pada pemilihan nilai signifikansi 0,001 adalah selama 0,7 menit dan pada pemilihan nilai signifikansi 0,01 adalah selama 2,15 menit. Waktu (menit) Nilai Kritis Gambar 4 Rataan waktu proses klasifikasi pada setiap pemilihan nilai kritis (chi-kuadrat). Pemilihan nilai signifikansi 0,001 memberikan kinerja klasifikasi yang lebih baik daripada ketika pemilihan nilai signifikansi 0,01. Hal itu dikarenakan pada pemilihan nilai signifikansi 0,001 menghasilkan himpunan kata penciri yang berjumlah lebih sedikit daripada jumlah kata penciri yang dihasilkan pada pemilihan nilai signifikansi 0,01. b. Document frequency thresholding (df). Pemilihan fitur dokumen dengan teknik document frequency thresholding (df) dilakukan pada dua nilai threshold. Nilai threshold yang digunakan adalah pada threshold 3 dan 8. Hipotesis nol akan ditolak jika nilai threshold suatu kata lebih dari nilai threshold yang digunakan. Nilai threshold 3 menghasilkan kata penciri dokumen latih sebanyak 935 kata. Nilai threshold 8 menghasilkan kata penciri dokumen latih sebanyak 417 kata. Kumpulan kata yang dihasilkan pada tahapan pemilihan fitur inilah yang kemudian hanya akan diolah pada sistem klasifikasi. Klasifikasi dokumen pada nilai threshold 3 dan 8 memiliki akurasi 58,97% untuk kategori family dan 76,92% untuk kategori penyakit. Gambar 5 menunjukkan waktu rata-rata yang diperlukan untuk menglasifikasikan dokumen uji pada setiap nilai threshold yang digunakan. Gambar 5 menjelaskan bahwa waktu rata-rata yang 10

19 digunakan untuk memproses satu dokumen uji pada pemilihan nilai threshold 3 adalah selama 6,80 menit dan pada pemilihan nilai threshold 8 adalah selama 5,36 menit. Waktu (menit) Gambar 5 Rataan waktu proses klasifikasi pada setiap pemilihan nilai threshold (df). Berdasarkan hasil penelitian tersebut, sistem dikembangkan menggunakan pemilihan fitur dokumen chi-kuadrat pada nilai signifikansi 0,001. Pemilihan teknik chikuadrat dikarenakan pada teknik tersebut memiliki tingkat akurasi klasifikasi yang lebih baik dan membutuhkan waktu lebih cepat untuk menglasifikasikan dokumen uji daripada teknik document thresholding frequency(df). Pengujian kinerja sistem 5.36 Nilai threshold Proses evaluasi yang dilakukan terdiri atas dua proses evaluasi. Evaluasi pertama adalah pengujian tingkat akurasi sistem klasifikasi, dan evaluasi berikutnya adalah pengujian tingkat akurasi sistem temu kembali informasi. Evaluasi sistem dilakukan sesuai pada hasil pemilihan fitur dokumen pada tingkat signifikansi 0,001. a. Akurasi sistem klasifikasi Akurasi dari sistem klasifikasi dapat dihitung dengan menggunakan bantuan tabel confussion matrix. Pada kategori kelas family tabel confussion matrix ditunjukkan pada Lampiran 5 dan untuk kelas penyakit ditunjukkan pada Lampiran 6. Akurasi sistem klasifikasi dapat dilihat pada Gambar 5. Akurasi sistem klasifikasi yang dikelaskan berdasarkan family tumbuhan obat memiliki tingkat akurasi yang lebih tinggi daripada sistem yang dikelaskan 3 8 berdasarkan penyakit, yaitu masing-masing sebesar 97,44% dan 89,74%. Hal tersebut disebabkan oleh metode klasifikasi Naive Bayes bekerja dengan memperhitungkan peluang kemunculan suatu kata yang terdapat pada dokumen uji yang dihitung terhadap kemunculan kata dalam suatu kelas dokumen latih. Persentase Kategori Kelas Gambar 6 Akurasi sistem klasifikasi. Family Penyakit Kata dalam dokumen uji pada dokumen yang salah penglasifikasian memiliki peluang kemunculan kata yang lebih besar untuk muncul pada kelas dokumen yang salah. Hal ini membuat keakurasian dalam penglasifikasian dokumen menjadi rendah. Untuk kategori family, rata-rata dokumen uji masuk ke dalam kelas yang tepat, karena kata penciri untuk suatu kelas family tertentu berbeda antar setiap kelasnya. b. Akurasi sistem temu kembali informasi Evaluasi sistem temu kembali informasi dilakukan menggunakan 29 kueri uji yang merepresentasikan isi dokumen. Kumpulan kata kueri yang digunakan dalam pengujian sistem temu kembali informasi dapat dilihat pada Tabel 6. Pengujian sistem temu kembali informasi dilakukan menggunakan recall precision. Hasil penghitungan recall precision ditunjukkan pada Gambar 7. 11

20 Precision Recall Gambar 7 Grafik recall precision kueri uji Gambar 7 menunjukkan nilai recall precision yang tinggi. Hal tersebut dibuktikan dengan melihat hasil dokumen yang dikembalikan kepada pengguna. Nilai average precision adalah sebesar 93,26%. Dapat disimpulkan bahwa kinerja sistem temu kembali informasi memiliki tingkat keakuratan yang baik untuk setiap kueri uji yang diberikan. Dokumen yang tidak relevan namun ikut ditemukembalikan hanya terjadi pada kueri uji kalsium, vitamin, buah diperas, gatal-gatal, dan zat warna. Hal ini disebabkan karena kueri tersebut memiliki banyak arti penerjemahan antar setiap dokumen tumbuhan obat sehingga kueri tersebut tidak mampu mewakili informasi yang sebenarnya diinginkan oleh pengguna. Misalnya informasi yang diinginkan pengguna adalah informasi mengenai kandungan kalsium dalam tumbuhan obat (kueri kalsium ), namun sistem menemukembalikan informasi mengenai penyakit yang terjadi akibat kekurangan kalsium (kueri kalsium ). Kesalahan sistem dalam menemukembalikan dokumen disebabkan juga karena sistem melakukan pencarian dokumen untuk masing-masing kata kueri secara terpisah sehingga menyebabkan dokumen yang tidak relevan ikut terambil lebih banyak. Misalnya untuk kueri zat warna, sistem akan melakukan pembobotan terhadap kata zat dan kata warna. Hal ini sejalan dengan metode pembobotan BM25 yang hanya memperhatikan kemunculan satu kata tanpa memperhatikan kedekatan kata yang digunakan pada kueri. Kesimpulan KESIMPULAN DAN SARAN Penelitian ini menganalisis kinerja chikuadrat dibanding dengan kinerja document thresholding frequency (df) sebagai pengekstraksi fitur yang kemudian diterapkan ke dalam klasifikasi Naïve Bayes untuk membuat model klasifikasi sebagai dasar dari sistem temu kembali informasi. Dari hasil yang diperoleh dapat disimpulkan bahwa: 1. Penerapan teknik pemilihan fitur dokumen dapat meningkatkan kinerja sistem klasifikasi. 2. Kinerja pemilihan fitur dokumen dengan teknik chi-kuadrat lebih baik dibanding dengan document thresholding frequency(df). 3. Penggunaan nilai signifikansi 0,001 memberikan kinerja klasifikasi yang lebih baik daripada penggunaan nilai signifikansi 0,01 sehingga sistem dikembangkan pada nilai signifikansi 0,001 untuk pengekstraksi fiturnya. 4. Sistem klasifikasi memiliki tingkat akurasi yang tinggi yaitu sebesar 97,44% untuk kategori klasifikasi berdasar family dan 89,74% untuk klasifikasi berdasar penyakit. 5. Temu kembali informasi menggunakan Sphinx memberikan hasil yang sangat memuaskan. Ditunjukkan dengan nilai AVP sebesar 93,26%. Saran Beberapa hal yang perlu dikembangkan dalam penelitian ini: 1. Menggunakan dokumen corpus yang lebih beragam dan dalam jumlah yang lebih banyak. 2. Melakukan stemming pada proses pengindeksan awal. 3. Menggunakan kamus frase untuk memproses kata. 4. Penelitian ini menggunakan metode chikuadrat untuk memilih fitur dokumen. Disarankan untuk menggunakan metode pemilihan fitur yang lain, seperti Information Gain, karena metode yang digunakan dalam penelitian ini membutuhkan waktu komputasi yang lama untuk melakukan pemilihan fitur dokumen. 12

21 5. Penelitian ini menggunakan metode Naïve Bayes sebagai sistem klasifikasi dokumen. Disarankan untuk menggunakan metode klasifikasi dokumen lainnya seperti SVM atau metode fuzzy. DAFTAR PUSTAKA Baeza-Yates R, Riberio-Neto B Modern Information Retrieval. England: Addison Wesley. El-Kourdi, M., Bensaid, A., and Rachidi, T. Automatic Arabic Document Categorixation Based on the Naïve Bayes Algorithm, 20 th International Conference on Computational Linguistics, 2004, Geneva. Forman G., M. An Extensive Empirical Study of Feature Selection Metrics for Text Classification, Journal of Machine Learning Research 3 (2003) Hadi W., Thabtah F., ALHawari S., Ababneh J. Naive Bayesian and K-Nearest Neighbour to Categorize Arabic Text Data, In Proceedings of the European Simulation and Modeling Conference, Le Havre, France, 2008 Han J, Kamber M Data Mining : Concepts and Techniques. USA : Morgan Kaufman Publishers. Hashimoto K., Yukawa T., Term Weighting Classification System Using the Chisquare Statistic for the Classification Subtask at NTCIR-6 Patent Retrieval Task, In Proceedings of NTCIR-6 Workshop Meeting, Japan, 2007 Manning C D., Raghavan P., Schutze H., An Introduction to Information Retrieval. Cambridge, Cambridge University Press. McCalum, A. & Nigam, K A Comparison of Event Models for Naïve Bayes Text Classification. Mesleh, A. A. Chi Square Feature Extraction Based Svms Arabic Language Text Categorization Systems, Journal of Computer Science (3:6), 2007,pp Metsis et al Spam filtering with Naïve Bayes Which Naïve Bayes?. Di dalam CEAS 2006 Third Conference on and AntiSpam. Rish et al An analysis of data characteristics that affect naïve Bayes performance. -. Seddiqui M H., Aono M., Use of Ontology in Text Classification. Toyohashi University of Technology. Japan. Spiegel M Schaum s Easy Outlines. Jakarta: Erlangga. Steinbach M., Karypis G., Kumar V., A Comparison of Document Clustering Techniques. Department of Computer Science and Egineering. University of Minnesota. Minnesota. Tan et al Introduction to Data Mining. USA: Addison Wesley. Thabtah, Fadi. Naïve Bayesian Based on Chi Square to Categorize Arabic Data, Camunication of the IBIMA Vol. 10, Yang Y, Pedersen J A Comparative Study on Feature Selection in Text Categorization. International Conference on Machine Learning Zuhud, E.A.M Potensi Hutan Tropika Indonesia sebagai Penyangga Bahan Obat Alam untuk Kesehatan Bangsa. Jurnal Bahan Alam Indonesia. Vol VI No.6, Januari

22 LAMPIRAN 14

23 Lampiran 1 Daftar 32 jenis tumbuhan obat Indonesia yang digunakan dalam penelitian No Nama Nama Latin 1 Pandan wangi Pandanus amaryllifolius Roxb. 2 Jarak pagar Jatropha curcas Linn. 3 Dandang gendis Clinacanthus nutans Lindau 4 Akar kuning Arcangelisiaflava L. 5 Gadung cina Smilax china 6 Tabat barito Ficus deloidea L. 7 Kemuning Murraya paniculata [L..] Jack. 8 Pegagan Centella asiatica (L.) Urban 9 Krokot Portulaca oleracea L. 10 Zodia Evodia suaveolens 11 Iler Coleus scutellarioides, Linn,Benth 12 Jeruk nipis Citrus aurantifolia, Swingle. 13 Sambang darah Excoecaria cochinchinensis Lour. 14 Nanas kerang Rhoeo discolor (L.Her.) Hance 15 Sambang colok Aerva sanguinolenta Bl. 16 Remek daging Excecaria bicolor Hassk 17 Kumis kucing Orthosiphon aristatus (B1) Miq. 18 Sosor bebek Kalanchoe pinnata (Lam.) Per. 19 Landik Barleria lupulina Lindl. 20 Jambu biji Psidium guajava L. 21 Tapak dara Catharantus roseus (L.) G. Don. 22 Som jawa Talinum paniculatum (jacq.) Gaertn. 23 Jarong Achyranthes aspera Linn. 24 Mangkokan Nothopanax scutellarium Merr. 25 Andong Cordyline fruticosa (L) A. Cheval. 26 Kemangi Ocimum basilicum 27 Patah tulang Eupharbia tirucalli L. 28 Cincau hitam Cyclea peltata Miq. 29 Awar awar Ficus septica Burm f. 30 Semanggi gunung Hydrocotyle sibthorpioides Lam. 31 Salam Syzygium polyanthum (Wight.) Walp. 32 Bayam duri Amaranthus Spinousus, Linn. 15

24 Lampiran 2 Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu d.f Sumber: Ronald J. Wonnacolt and Thomas H. Wonnacot. Statistics: Discovering Its Power, New York: John Willeyand Sons, 1982, hal

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

KLASIFIKASI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN ALGORITMA KNN FUZZY KRISTINA PASKIANTI

KLASIFIKASI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN ALGORITMA KNN FUZZY KRISTINA PASKIANTI KLASIFIKASI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN ALGORITMA KNN FUZZY KRISTINA PASKIANTI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 ABSTRACT

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

Anthurium sp. Kuping gajah (indonesia), tail flower, crystal anthurium, dan Black Velvet (Inggris)

Anthurium sp. Kuping gajah (indonesia), tail flower, crystal anthurium, dan Black Velvet (Inggris) LAMPIRAN 21 Lampiran 1 Tiga puluh jenis citra tanaman hias No Citra Tanaman Hias Nama Latin Nama Lain 1 Dracaena draco Pohon darah naga, Pardon bali, drasena (Indonesia), dragon blood tree 2 Anthurium

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Tahapan Penelitian Tahapan penelitian yang dilaksanakan ditunjukan pada Gambar 6. Akusisi Citra INPUT Citra Query Preprocessing Citra Pre processing Citra Ekstraksi Fitur

Lebih terperinci

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene

Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Makalah Seminar Program S1 Ilmu Komputer Alih Jenis Departemen Ilmu Komputer, FMIPA-IPB 7 Februari 2015 Search Engine pada Dokumen RDF Tanaman Obat Menggunakan Sesame dan Lucene Search Engine on RDF Document

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN

RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN RDF RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA DENGAN PEMBOBOTAN PER KONTEKS REZA KEMAL ZAEN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM PENCARIAN TUMBUHAN OBAT INDONESIA BERBASIS WEB OKI MAULANA

PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM PENCARIAN TUMBUHAN OBAT INDONESIA BERBASIS WEB OKI MAULANA PENGGABUNGAN CIRI CITRA DAN TEKS UNTUK SISTEM PENCARIAN TUMBUHAN OBAT INDONESIA BERBASIS WEB OKI MAULANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK

QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA ABSTRAK QUERY-SENSITIVE SIMILARITY MEASURE DALAM TEMU KEMBALI DOKUMEN BERBAHASA INDONESIA Sri Nurdiati 1, Julio Adisantoso 1, Adam Salnor Akbar 2 1 Staf Departemen Ilmu Komputer, Fakultas Matematika dan IPA, Institut

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

PENDAHULUAN. Latar Belakang

PENDAHULUAN. Latar Belakang Latar Belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang kaya akan tumbuhan obat yang sangat potensial untuk dikembangkan. Untuk keanekaragaman tanaman, Indonesia memiliki lebih dari

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB 1 PENDAHULUAN Pengantar

BAB 1 PENDAHULUAN Pengantar BAB 1 PENDAHULUAN 1.1. Pengantar Dewasa ini fungsi komputer semakin dimanfaatkan dalam segala bidang. Baik di bidang pendidikan, bisnis, ataupun penelitian. Penggunaan komputer kini tidak lagi terbatas

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED

DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED DETEKSI SUBJEKTIFITAS TEKS BERBAHASA INDONESIA MENGGUNAKAN METODE LEXICON RULE BASED Tugas Akhir Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM

ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM ANALISIS PENGGUNAAN ALGORITMA STEMMING VEGA PADA INFORMATION RETRIEVAL SYSTEM Lusianto Marga Nugraha¹, Arie Ardiyanti Suryani², Warih Maharani³ ¹Teknik Informatika,, Universitas Telkom Abstrak Stemming

Lebih terperinci

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2. 6 tahap ini, pola yang telah ditemukan dipresentasikan ke pengguna dengan teknik visualisasi agar pengguna dapat memahaminya. Deskripsi aturan klasifikasi akan dipresentasikan dalam bentuk aturan logika

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita

Tabel 3 Situs berita dan jumlah RSS yang diunduh Situs Berita 6 besar dibandingkan dengan istilah yang berada pada description. Lingkup Implemental Lingkungan implementasi yang akan digunakan adalah sebagai berikut: Perangkat Lunak : Sistem operasi Windows XP Professional

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA

KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA Oleh: YUDHA PERMADI G64102064 DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR 2008

Lebih terperinci

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI

PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI PELABELAN OTOMATIS CITRA MENGGUNAKAN FUZZY C MEANS UNTUK SISTEM TEMU KEMBALI CITRA MARSANI ASFI SEKOLAH PASCASARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER INFORMASI Dengan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS

ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS ANALISIS GRAFOLOGI BERDASARKAN HURUF a DAN t MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR AMANDA KARATIKA HUBEIS DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015

FM-UDINUS-BM-08-04/R0 SILABUS MATAKULIAH. Silabus: Information Retrieval Hal: 1 dari 5. Revisi : - Tanggal Berlaku : Januari 2015 SILABUS MATAKULIAH Revisi : - Tanggal Berlaku : Januari 2015 A. Identitas 1. Nama Matakuliah : A11. 54823 / 2. Program Studi : Teknik Informatika-S1 3. Fakultas : Ilmu Komputer 4. Bobot sks : 3 SKS 5.

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

Agus Alim Muin S.Kom, M.Kom

Agus Alim Muin S.Kom, M.Kom Technologia Vol 7, No.4, Oktober Desember 2016 245 PENERAPAN SELEKSI ATRIBUT WEIGHTS BY INFORMATION GAIN DAN SELECT BY WEIGHTS PADA ALGORITMA NAÏVE BAYES UNTUK PREDIKSI KOLEKTIBILITAS PEMBIAYAAN USAHA

Lebih terperinci

Optimasi K-Means Clustering Menggunakan Particle Swarm Optimization pada Sistem Identifikasi Tumbuhan Obat Berbasis Citra

Optimasi K-Means Clustering Menggunakan Particle Swarm Optimization pada Sistem Identifikasi Tumbuhan Obat Berbasis Citra Tersedia secara online di: http://journal.ipb.ac.id/index.php/jika Volume 3 Nomor 1 halaman 38-47 ISSN: 2089-6026 Optimasi K-Means Clustering Menggunakan Particle Swarm Optimization pada Sistem Identifikasi

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen

HASIL DAN PEMBAHASAN. Tabel 1 Struktur tabel tb_dokumen 6 Lingkungan Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut : Perangkat lunak : Sistem operasi Windows XP Professional Microsoft Visual Basic.NET 2005 SQL Srever 2000 Perangkat

Lebih terperinci

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER

KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER KLASIFIKASI KAYU DENGAN MENGGUNAKAN NAÏVE BAYES-CLASSIFIER ACHMAD FAHRUROZI 1 1 Universitas Gunadarma, achmad.fahrurozi12@gmail.com Abstrak Masalah yang akan diangkat dalam makalah ini adalah bagaimana

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Mata kuliah kerja praktik yang ada di Universitas Kristen Duta Wacana merupakan mata kuliah yang bersifat mandiri. Dimana mahasiswa yang mengambil mata kuliah

Lebih terperinci

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA

EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA EVALUASI PENGGUNAAN SIMILARITY THESAURUS TERHADAP EKSPANSI KUERI DALAM SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA Fridolin Febrianto Paiki Universitas Papua, Jl. Gunung Salju, Amban, Manokwari ff.paiki@unipa.ac.id

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI

SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI SEARCH ENGINE DOKUMEN RDF TANAMAN OBAT MENGGUNAKAN SESAME DAN LUCENE LUTHFI NOVIANDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2014 PERNYATAAN

Lebih terperinci

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data

Lingkungan Pengembangan Data Mining HASIL DAN PEMBAHASAN Preprocessing Data Setelah dilakukan analisis clustering maka algoritme tersebut akan dibandingkan berdasarkan cluster yang terbentuk dari hasil analisis cluster-nya. Hasil perbandingan diharapkan dapat membuktikan bahwa

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

3.1 Desain Penelitian

3.1 Desain Penelitian 24 BAB 3 METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN 3.1 Desain Penelitian Desain penelitian merupakan tahapan yang akan dilakukan penulis dalam melakukan penelitian. Tahapan penelitian yang digunakan

Lebih terperinci

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci