PENDAHULUAN. Latar belakang

Transkripsi

1 Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium Konservasi Tumbuhan, Fakultas Kehutanan IPB telah mendata bahwa tidak kurang dari spesies tumbuhan obat berasal dari hutan Indonesia (Zuhud 2009). Kandungan kimia yang terdapat dalam jenis tumbuhan obat tersebut mendorong peneliti untuk melakukan penelitian tentang penyakit yang dapat diobati dari suatu jenis tumbuhan obat tertentu. Melalui media cetak dan elektronik hasil penelitian tersebut didokumentasikan untuk diinformasikan kepada masyarakat. Internet membuat dokumentasi elektronik tersebar dengan mudah di dalam maupun luar negeri. Mesin pencari internet digunakan oleh pengguna di seluruh dunia untuk mencari informasi terkait tumbuhan obat yang dikehendaki. Banyaknya jumlah dokumentasi elektronik tersebut mempengaruhi kinerja mesin pencari dalam mengembalikan dokumen yang relevan terhadap keinginan pengguna. Untuk meningkatkan kinerja mesin pencari diperlukan sistem pengelolaan dokumen yang lebih baik dari sebelumnya. Untuk itu diperlukan sistem klasifikasi dokumen secara otomatis. Salah satu teknik klasifikasi dokumen adalah Naïve Bayes. Naïve Bayes merupakan classifier sederhana yang didasarkan pada penerapan teorema Bayes. Kelebihan teknik ini adalah mampu mengklasifikasikan dokumen dengan tepat serta mudah dalam pengimplementasiannya (Thabtah 2009). Dalam jangka panjang, dokumen penelitian yang akan terindeks semakin bertambah seiring berjalannya waktu. Kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen saja, hal tersebut dikarenakan sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain Document Frequency Thresholding (DF), Information Gain (IG), Mutual Information (MI), Term strength (TS) dan Chi-square testing (X 2 ) (Yimming 2003). Chi-square merupakan teknik pemilihan fitur dokumen yang sangat efektif untuk memilih kata penciri suatu dokumen namun tidak menurunkan akurasi sistem klasifikasi (Yimming 1997). Document frequency thresholding merupakan teknik yang sederhana untuk mengurangi jumlah kata yang akan diproses. Teknik Document frequency thresholding mudah untuk diimplementasikan (Yimming 1997). Penelitian ini akan membandingkan kinerja pemilihan fitur dokumen antara teknik chi-kuadrat dan teknik document thresholding frequency (df) yang kemudian dilakukan pembangunan sistem klasifikasi Naïve Bayes untuk mengklasifikasikan dokumen tumbuhan obat Indonesia. Dalam penelitian ini, sistem klasifikasi akan mengklasifikasikan dokumen berdasarkan kategori family tumbuhan obat dan penyakit yang dapat disembuhkan oleh suatu jenis tumbuhan obat. Hasil klasifikasi tersebut kemudian akan digunakan untuk membangun sistem mesin pencari dokumen. Tujuan Tujuan penelitian ini adalah mengembangkan sistem temu kembali informasi tumbuhan obat yang bekerja berdasarkan hasil pemilihan fitur dokumen serta Naïve Bayes sebagai penglasifikasi dokumen. Ruang lingkup Ruang lingkup penelitian ini meliputi : 1. Dokumen terbatas pada 32 jenis tumbuhan obat Indonesia (Lampiran 1). 2. Dokumen yang digunakan berformat XML. 3. Sistem menglasifikasikan dokumen berdasarkan penyakit yang dapat disembuhkan dan family dari suatu tumbuhan obat tertentu. Manfaat Manfaat dari penelitian ini adalah mempercepat dan mempermudah pengguna dalam mencari informasi tentang tumbuhan obat Indonesia. TINJAUAN PUSTAKA Temu kembali informasi Sistem temu kembali informasi (Information retrieval system) merupakan sistem pencari pada sekumpulan dokumen 1

2 elektronik yang memenuhi kebutuhan informasi tertentu (Manning et al. 2008). Sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi. Temu kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR System), sehingga kueri tersebut merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan terhadap kueri (Baeza-Yates & Ribeiro-Neto 1999). Klasifikasi Klasifikasi adalah proses untuk menentukan kelas dari suatu objek tertentu. Pada klasifikasi dokumen, permasalahan yang muncul adalah sebagai berikut: diberikan sebuah deskripsi d X dari sebuah dokumen dimana X merupakan ruang dokumen. Sebuah himpunan tetap kelas { }, dengan menggunakan algoritme pembelajaran, dilakukan proses pembelajaran terhadap fungsi klasifikasi sehingga dapat memetakan dokumen pada kelas C. Proses klasifikasi dibagi menjadi dua tahap, yaitu tahapan pembelajaran dan pengujian. Pada tahap pembelajaran, sebagian data yang telah diketahui kelasnya (data latih) digunakan untuk membuat model klasifikasi. Tahap pengujian menguji data uji dengan model klasifikasi untuk mengetahui akurasi model klasifikasi tersebut. Jika akurasi cukup maka model tersebut dapat digunakan untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006). Pemilihan fitur dokumen Pemilihan fitur dokumen merupakan suatu proses memilih sebanyak kata terbaik. Kata tersebut merupakan himpunan dari semua kata yang ada pada data latih. Dalam penelitian ini, data dari himpunan tersebut akan digunakan sebagai penciri dokumen yang akan diklasifikasikan. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses penghilangan fitur akan dihilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et all 2008). Keputusan statistik dan hipotesis statistik Keputusan yang diambil berdasarkan informasi sampel yang didapatkan dari data disebut keputusan statistik. Sebagai contoh keputusan statistik adalah ketika akan memutuskan berdasarkan data sampel apakah suatu serum baru benar-benar efektif dalam menyembuhkan suatu penyakit, apakah suatu prosedur pendidikan lebih baik dari prosedur pendidikan lainnya. Untuk mencapai suatu keputusan, diperlukan asumsi awal tentang populasi yang terlibat yang kemudian disebut sebagai hipotesis statistik. Hipotesis umumnya merupakan pernyataan umum yang berkaitan dengan distribusi probabilitas dari populasi. Hipotesis diperlukan untuk menentukan apakah hasil yang diduga cenderung untuk benar. Hipotesis nol (H 0 ) menyatakan bahwa tidak ada perbedaan di dalam hasil yang sedang diperiksa atau disebut juga nol pengaruh (zero effect). Chi-kuadrat ( ) Chi-kuadrat ( ) merupakan pengujian hipotesis mengenai perbandingan antara frekuensi sampel yang benar-benar terjadi (kemudian disebut frekuensi observasi) dengan frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (selanjutnya disebut dengan frekuensi harapan. Sampel berukuran N diambil dari suatu populasi normal berdeviasi standar σ. Untuk setiap sampel dihitung nilai sehingga diperoleh distribusi sampling untuk yang disebut distribusi chi-kuadrat. Distribusi chi-kuadrat tergantung pada satu parameter, yaitu derajat kebebasan (d.f). Persamaan 1 digunakan untuk menghitung besarnya jumlah derajat bebas dari suatu kasus. Persamaan 2 digunakan untuk 2

3 menghitung derajat bebas saat menggunakan tabel kontingensi dengan N adalah ukuran sampel yang diambil, R adalah jumlah baris dan C adalah jumlah kolom. Distribusi chi-kuadrat untuk berbagai nilai diperlihatkan pada Gambar 1. Gambar 1 menunjukkan bahwa masingmasing distribusi merupakan distribusi probabilitas, sehingga luas di bawah kurva bernilai 1. Gambar 1 Distribusi chi-kuadrat. Pengaruh antara frekuensi sampel dan frekuensi harapan dapat diuji menggunakan suatu hipotesis H 0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara frekuensi observasi dengan frekuensi harapan. Pengujian hipotesis dilakukan pada tingkat signifikansi tertentu. Tingkat signifikansi yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004). Penghitungan nilai chi-kuadrat yang digunakan untuk melakukan pengujian perbedaan antara pola frekuensi observasi ( ), dengan frekuensi harapan ( ) ditunjukkan pada Persamaan 3. Berdasarkan nilai chi-kuadrat tersebut dapat diambil suatu keputusan statistik apakah terjadi perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H 0 ) diterima jika nilai penghitungan < nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Hipotesis nol (H 0 ) ditolak jika nilai penghitungan > nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Pada penelitian ini, mengukur derajat kebebasan antara kata penciri dengan kelas agar dapat dibandingkan dengan persebaran nilai (Mesleh 2007). Chi-kuadrat mengevaluasi korelasi antara dua variabel dan kemudian menentukan apakah saling bebas atau berhubungan sesuai dengan nilai pada tabel chi. Penghitungan nilai chi-kuadrat pada setiap kata yang muncul pada setiap kelas dapat dibantu dengan menggunakan tabel kontingensi. Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 menunjukkan tabel kontingensi antara kata terhadap kelas. Apabila frekuensi harapan pada kata dan kelas q adalah E pq, banyaknya frekuensi observasi dalam dokumen adalah, maka peluang dan dapat digunakan untuk menghitung frekuensi harapan yang diperoleh dengan rumus pada Persamaan 4: dengan nilai peluang kata dan peluang kelas: Tabel 1 Tabel kontingensi antara kata terhadap kelas Kata Kelas Kelas = 1 Kelas = 0 Kata = 1 A B Kata = 0 C D Penghitungan nilai chi-kuadrat berdasarkan tabel kontingensi tersebut disederhanakan dalam Persamaan 5. dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, merupakan jumlah dokumen latih, merupakan banyaknya dokumen pada kelas yang memuat kata, merupakan banyaknya dokumen yang tidak berada di namun memuat kata, merupakan banyaknya dokumen yang berada di kelas namun tidak memiliki kata di dalamnya, serta merupakan banyaknya dokumen yang bukan ) 3

4 merupakan dokumen kelas memuat kata. dan tidak Pengambilan keputusan dilakukan berdasarkan nilai dari masing-masing kata. Kata yang memiliki nilai di atas nilai kritis pada tingkat signifikansi α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas. Nilai kritis untuk tingkat signifikansi α ditunjukkan oleh Tabel 2. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu ditunjukkan dalam Lampiran 2. Tabel 2 Nilai kritis signifikansi α α 0,1 0,05 0,01 0,005 0,001 untuk tingkat Nilai Kritis 2,71 3,84 6,63 7,83 10,83 Document frequency thresholding (DF) Document frequency thresholding (df) merupakan jumlah dokumen pada setiap kata unik yang muncul. Penghitungan df akan menghitung kemunculan kata unik dalam suatu kumpulan dokumen latih. Untuk menentukan bahwa kata tersebut berpengaruh terhadap suatu kumpulan dokumen, digunakan nilai threshold (Yimming 1997). Penentuan nilai threshold dilakukan dengan melihat sebaran kata dalam keseluruhan dokumen latih. Kata yang memiliki nilai df di atas nilai threshold yang telah ditentukan merupakan kata yang berpengaruh pada sekumpulan dokumen latih. Kata dengan nilai df yang rendah merupakan kata yang jarang muncul dalam koleksi dokumen latih. Dengan demikian, kata tersebut dianggap sebagai noise dalam data latih. Naive Bayes classifier Metode klasifikasi Naïve Bayes adalah salah satu metode klasifikasi yang mengasumsikan seluruh atribut dari contoh yang bersifat independen satu sama lain pada konteks kelas (McCallum & Nigam 1998). Meskipun secara umum asumsi tersebut merupakan asumsi yang buruk, pada praktiknya metode Naïve Bayes menunjukkan kinerja yang sangat baik (Rish 2001). Menurut Manning (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut. Klasifikasi Naïve Bayes termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini sebuah dokumen terdiri atas beberapa kejadian kata. Berdasarkan asumsi Bayes, kemungkinan tiap kejadian kata dalam tiap dokumen adalah bebas, tidak terpengaruh dengan konteks kata dan posisi kata dalam dokumen. Berdasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P ditunjukkan pada Persamaan 6: dengan P(dc) adalah peluang kemunculan dokumen d di kelas c, adalah peluang awal suatu dokumen masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d dapat diabaikan karena memiliki nilai yang sama untuk seluruh kelas c, sehingga Persamaan 6 dapat disederhanakan dalam Persamaan 7: Rumus untuk menghitung nilai peluang dokumen masuk ke dalam kelas c dan peluang kemunculan dokumen d berada pada kelas c adalah dengan N c adalah banyaknya dokumen dalam kelas c, N adalah total dokumen, T cd adalah banyaknya d dalam dokumen latih dari kelas c. Menurut Manning et al. (2008) kelas yang paling sesuai bagi dokumen d adalah kelas yang memiliki nilai paling tinggi yaitu seperti ditunjukkan pada Persamaan 8: 4

5 Nilai peluang awal dapat diestimasi dengan melihat jumlah dokumen yang dimiliki oleh kelas c relatif terhadap jumlah seluruh dokumen yang ada. Nilai peluang awal diestimasi secara berbeda untuk setiap model Naïve Bayes (Metsis et al. 2006). Confusion matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan salah oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005). Data uji diujikan untuk mendapatkan tingkat akurasi hasil prediksi yang berupa jumlah true positive, true negative, false positive, dan false negative seperti yang dilihat pada Tabel 3 (Rachman 2011). Tabel 3 Confusion matrix untuk klasifikasi biner Actual Class Predicted Class Class = 1 Class = 0 Class = 1 F11 F10 Class = 0 F01 F00 Keterangan untuk Tabel 3 dinyatakan sebagai berikut : F11, yaitu jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1. F00, yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0. F01, yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1. F10, yaitu jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0. Perhitungan akurasi dinyatakan dalam Persamaan 9. Recall precision Recall Precision adalah kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. Recall adalah rasio jumlah dokumen relevan yang ditampilkan (retrieve) terhadap jumlah seluruh dokumen yang relevan. Precision adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning 2008). Perhitungan recallprecision dijelaskan pada Persamaan 10 dan Persamaan 11 berikut. (10) (11) Menurut Baeza-Yates dan Ribeiro- Neto (1999), algoritme temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda, akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Persamaan 12 merupakan formula untuk menghitung AVP. ( ) Asumsi, P (r j ) adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan adalah precision pada level recall r untuk kueri ke-i. SphinxSearch Sphinx adalah platform search engine yang didistribusikan pada GPL versi 2. Secara teknis, Sphinx merupakan perangkat lunak yang menyediakan fungsionalitas pencarian teks secara cepat dan relevan pada aplikasi yang berjalan di lingkungan klien. Sphinx telah dirancang khusus untuk berintegrasi dengan database SQL dan bahasa pemrograman tertentu (STI 2008). Sphinx memiliki dua jenis fungsi pembobotan, yaitu phase rank dan statistical rank. Phase rank adalah fungsi pembobotan berdasarkan panjang kata antara tubuh dokumen dan frasa kueri. Statistical rank adalah fungsi pembobotan berdasarkan frekuensi kata dalam dokumen. Salah satu mode pembobotan berdasarkan statistical rank adalah BM25. 5

6 Pada tahap pembangunan sistem temu kembali informasi, terlebih dahulu dilakukan pemrosesan dokumen dengan menggunakan SphinxSearch. Langkah yang dilakukan pertama kali yaitu melakukan pengindeksan ke semua koleksi dokumen. Proses pengeindeksan menghasilkan file hash. Perintah yang diberikan untuk melakukan pengindeksan koleksi dokumen adalah sebagai berikut: C:\Sphinx\bin\indexer.exe --config C:\Sphinx\sphinxDb.conf --all Langkah selanjutnya yaitu pembuatan service pada windows dengan nama SphinxSkripsi yang dapat dibuat dengan perintah sebagai berikut: C:\Sphinx\bin> C:\Sphinx\bin\searchd install config C:\Sphinx\sphinxDb.conf servicename SphinxSkripsi Service pada windows berguna untuk mencari hasil pengindeksan yang berupa file hash. Pembobotan BM25 Metode BM25 merupakan metode pembobotan kata yang memeringkatkan setiap kumpulan dokumen yang didasarkan pada kata dalam kueri yang muncul pada setiap dokumen. Rumus dalam menghitung skor pada algoritme BM25 ditunjukkan pada Persamaan 13 berikut (13) Persamaan 13 menjelaskan bahwa merupakan term frequency pada dokumen D, D merupakan banyaknya kata dalam dokumen D, dan avg dl merupakan rata-rata panjang dokumen dalam kumpulan teks dari dokumen tersimpan. k 1 dan b merupakan parameter bebas dimana nilai yang biasa dipilih untuk k 1 =2,0 dan b=0,75. IDF(q i ) merupakan bobot dari kata q i. Rumus untuk menghitung IDF ditunjukkan pada Persamaan 14 sebagai berikut METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 2. Data yang diproses dalam sistem ini adalah koleksi dokumen. Input lain yang digunakan adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada tahapan praproses. Tahap selanjutnya adalah dilakukan proses pemilihan fitur pada dokumen latih, kemudian hasilnya digunakan sebagai landasan dalam pembuatan vector space model. Vector space model digunakan untuk melakukan pembobotan terhadap kata sehingga akan merepresentasikan dokumen ke dalam bentuk vektor. Tahapan berikutnya adalah melakukan klasifikasi Naïve Bayes pada dokumen uji yang belum diketahui kelasnya. Tahapan ini bertujuan untuk membangun model klasifikasi yang berupa indeks klasifikasi. Tahapan selanjutnya setelah model klasifikasi terbentuk yaitu pembangunan sistem temu kembali informasi yang akan mencari informasi berdasarkan hasil klasifikasi pada sistem. Pada tahap akhir, dilakukan evaluasi terhadap kinerja sistem klasifikasi dan kinerja sistem sistem temu kembali informasi yang dihasilkan. Dokumen tumbuhan obat Penelitian ini menggunakan koleksi dokumen tumbuhan obat sebagai korpus. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki. Koleksi dokumen tumbuhan obat berjumlah 132 dokumen yang diperoleh dari buku-buku berikut: 1. Atlas Tumbuhan Obat Indonesia Jilid 1. Oleh dr. Setiawan Dalimartha 2. Atlas Tumbuhan Obat Indonesia Jilid 2. Oleh dr. Setiawan Dalimartha 3. Atlas Tumbuhan Obat Indonesia Jilid 3. Oleh dr. Setiawan Dalimartha 4. Obat Asli Indonesia Oleh Dr. Seno Sastroamidjojo 5. Ensiklopedi Millenium Jilid 1: Tumbuhan Berkhasiat Obat Indonesia. 6. Tumbuhan Obat dan Khasiatnya. Oleh Drs. H. Arief Hariana. dimana N merupakan banyaknya koleksi dokumen, dan merupakan jumlah dokumen yang memuat kata q i. 6