PENDAHULUAN. Latar belakang

Ukuran: px
Mulai penontonan dengan halaman:

Download "PENDAHULUAN. Latar belakang"

Transkripsi

1 Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium Konservasi Tumbuhan, Fakultas Kehutanan IPB telah mendata bahwa tidak kurang dari spesies tumbuhan obat berasal dari hutan Indonesia (Zuhud 2009). Kandungan kimia yang terdapat dalam jenis tumbuhan obat tersebut mendorong peneliti untuk melakukan penelitian tentang penyakit yang dapat diobati dari suatu jenis tumbuhan obat tertentu. Melalui media cetak dan elektronik hasil penelitian tersebut didokumentasikan untuk diinformasikan kepada masyarakat. Internet membuat dokumentasi elektronik tersebar dengan mudah di dalam maupun luar negeri. Mesin pencari internet digunakan oleh pengguna di seluruh dunia untuk mencari informasi terkait tumbuhan obat yang dikehendaki. Banyaknya jumlah dokumentasi elektronik tersebut mempengaruhi kinerja mesin pencari dalam mengembalikan dokumen yang relevan terhadap keinginan pengguna. Untuk meningkatkan kinerja mesin pencari diperlukan sistem pengelolaan dokumen yang lebih baik dari sebelumnya. Untuk itu diperlukan sistem klasifikasi dokumen secara otomatis. Salah satu teknik klasifikasi dokumen adalah Naïve Bayes. Naïve Bayes merupakan classifier sederhana yang didasarkan pada penerapan teorema Bayes. Kelebihan teknik ini adalah mampu mengklasifikasikan dokumen dengan tepat serta mudah dalam pengimplementasiannya (Thabtah 2009). Dalam jangka panjang, dokumen penelitian yang akan terindeks semakin bertambah seiring berjalannya waktu. Kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen saja, hal tersebut dikarenakan sistem klasifikasi mengambil isi dari uraian setiap dokumen. Salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Ada beberapa teknik yang digunakan untuk melakukan pemilihan fitur dokumen antara lain Document Frequency Thresholding (DF), Information Gain (IG), Mutual Information (MI), Term strength (TS) dan Chi-square testing (X 2 ) (Yimming 2003). Chi-square merupakan teknik pemilihan fitur dokumen yang sangat efektif untuk memilih kata penciri suatu dokumen namun tidak menurunkan akurasi sistem klasifikasi (Yimming 1997). Document frequency thresholding merupakan teknik yang sederhana untuk mengurangi jumlah kata yang akan diproses. Teknik Document frequency thresholding mudah untuk diimplementasikan (Yimming 1997). Penelitian ini akan membandingkan kinerja pemilihan fitur dokumen antara teknik chi-kuadrat dan teknik document thresholding frequency (df) yang kemudian dilakukan pembangunan sistem klasifikasi Naïve Bayes untuk mengklasifikasikan dokumen tumbuhan obat Indonesia. Dalam penelitian ini, sistem klasifikasi akan mengklasifikasikan dokumen berdasarkan kategori family tumbuhan obat dan penyakit yang dapat disembuhkan oleh suatu jenis tumbuhan obat. Hasil klasifikasi tersebut kemudian akan digunakan untuk membangun sistem mesin pencari dokumen. Tujuan Tujuan penelitian ini adalah mengembangkan sistem temu kembali informasi tumbuhan obat yang bekerja berdasarkan hasil pemilihan fitur dokumen serta Naïve Bayes sebagai penglasifikasi dokumen. Ruang lingkup Ruang lingkup penelitian ini meliputi : 1. Dokumen terbatas pada 32 jenis tumbuhan obat Indonesia (Lampiran 1). 2. Dokumen yang digunakan berformat XML. 3. Sistem menglasifikasikan dokumen berdasarkan penyakit yang dapat disembuhkan dan family dari suatu tumbuhan obat tertentu. Manfaat Manfaat dari penelitian ini adalah mempercepat dan mempermudah pengguna dalam mencari informasi tentang tumbuhan obat Indonesia. TINJAUAN PUSTAKA Temu kembali informasi Sistem temu kembali informasi (Information retrieval system) merupakan sistem pencari pada sekumpulan dokumen 1

2 elektronik yang memenuhi kebutuhan informasi tertentu (Manning et al. 2008). Sistem temu kembali informasi bertujuan untuk menjembatani kebutuhan informasi pengguna dengan sumber informasi. Temu kembali informasi berkaitan dengan cara merepresentasikan, menyimpan, mengorganisasikan, dan mengakses informasi. Merepresentasikan dan mengorganisasikan suatu informasi harus membuat pengguna lebih mudah dalam mengakses informasi yang diinginkannya. Akan tetapi, untuk mengetahui informasi yang diinginkan pengguna bukan merupakan suatu hal yang mudah. Untuk itu pengguna harus menransformasikan informasi yang dibutuhkan ke dalam suatu kueri yang akan diproses mesin pencari (IR System), sehingga kueri tersebut merepresentasikan informasi yang dibutuhkan oleh pengguna. Dengan kueri tersebut, IR system akan menemukembalikan informasi yang relevan terhadap kueri (Baeza-Yates & Ribeiro-Neto 1999). Klasifikasi Klasifikasi adalah proses untuk menentukan kelas dari suatu objek tertentu. Pada klasifikasi dokumen, permasalahan yang muncul adalah sebagai berikut: diberikan sebuah deskripsi d X dari sebuah dokumen dimana X merupakan ruang dokumen. Sebuah himpunan tetap kelas { }, dengan menggunakan algoritme pembelajaran, dilakukan proses pembelajaran terhadap fungsi klasifikasi sehingga dapat memetakan dokumen pada kelas C. Proses klasifikasi dibagi menjadi dua tahap, yaitu tahapan pembelajaran dan pengujian. Pada tahap pembelajaran, sebagian data yang telah diketahui kelasnya (data latih) digunakan untuk membuat model klasifikasi. Tahap pengujian menguji data uji dengan model klasifikasi untuk mengetahui akurasi model klasifikasi tersebut. Jika akurasi cukup maka model tersebut dapat digunakan untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006). Pemilihan fitur dokumen Pemilihan fitur dokumen merupakan suatu proses memilih sebanyak kata terbaik. Kata tersebut merupakan himpunan dari semua kata yang ada pada data latih. Dalam penelitian ini, data dari himpunan tersebut akan digunakan sebagai penciri dokumen yang akan diklasifikasikan. Pemilihan fitur dokumen memiliki dua tujuan utama yaitu membuat data latih yang diterapkan oleh sistem klasifikasi menjadi lebih sederhana serta untuk meningkatkan akurasi sistem klasifikasi. Peningkatan akurasi sistem klasifikasi disebabkan karena pada proses penghilangan fitur akan dihilangkan kata-kata yang bukan merupakan penciri dokumen (Manning et all 2008). Keputusan statistik dan hipotesis statistik Keputusan yang diambil berdasarkan informasi sampel yang didapatkan dari data disebut keputusan statistik. Sebagai contoh keputusan statistik adalah ketika akan memutuskan berdasarkan data sampel apakah suatu serum baru benar-benar efektif dalam menyembuhkan suatu penyakit, apakah suatu prosedur pendidikan lebih baik dari prosedur pendidikan lainnya. Untuk mencapai suatu keputusan, diperlukan asumsi awal tentang populasi yang terlibat yang kemudian disebut sebagai hipotesis statistik. Hipotesis umumnya merupakan pernyataan umum yang berkaitan dengan distribusi probabilitas dari populasi. Hipotesis diperlukan untuk menentukan apakah hasil yang diduga cenderung untuk benar. Hipotesis nol (H 0 ) menyatakan bahwa tidak ada perbedaan di dalam hasil yang sedang diperiksa atau disebut juga nol pengaruh (zero effect). Chi-kuadrat ( ) Chi-kuadrat ( ) merupakan pengujian hipotesis mengenai perbandingan antara frekuensi sampel yang benar-benar terjadi (kemudian disebut frekuensi observasi) dengan frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (selanjutnya disebut dengan frekuensi harapan. Sampel berukuran N diambil dari suatu populasi normal berdeviasi standar σ. Untuk setiap sampel dihitung nilai sehingga diperoleh distribusi sampling untuk yang disebut distribusi chi-kuadrat. Distribusi chi-kuadrat tergantung pada satu parameter, yaitu derajat kebebasan (d.f). Persamaan 1 digunakan untuk menghitung besarnya jumlah derajat bebas dari suatu kasus. Persamaan 2 digunakan untuk 2

3 menghitung derajat bebas saat menggunakan tabel kontingensi dengan N adalah ukuran sampel yang diambil, R adalah jumlah baris dan C adalah jumlah kolom. Distribusi chi-kuadrat untuk berbagai nilai diperlihatkan pada Gambar 1. Gambar 1 menunjukkan bahwa masingmasing distribusi merupakan distribusi probabilitas, sehingga luas di bawah kurva bernilai 1. Gambar 1 Distribusi chi-kuadrat. Pengaruh antara frekuensi sampel dan frekuensi harapan dapat diuji menggunakan suatu hipotesis H 0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara frekuensi observasi dengan frekuensi harapan. Pengujian hipotesis dilakukan pada tingkat signifikansi tertentu. Tingkat signifikansi yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004). Penghitungan nilai chi-kuadrat yang digunakan untuk melakukan pengujian perbedaan antara pola frekuensi observasi ( ), dengan frekuensi harapan ( ) ditunjukkan pada Persamaan 3. Berdasarkan nilai chi-kuadrat tersebut dapat diambil suatu keputusan statistik apakah terjadi perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H 0 ) diterima jika nilai penghitungan < nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Hipotesis nol (H 0 ) ditolak jika nilai penghitungan > nilai kritis pada derajat bebas dan tingkat signifikansi tertentu. Pada penelitian ini, mengukur derajat kebebasan antara kata penciri dengan kelas agar dapat dibandingkan dengan persebaran nilai (Mesleh 2007). Chi-kuadrat mengevaluasi korelasi antara dua variabel dan kemudian menentukan apakah saling bebas atau berhubungan sesuai dengan nilai pada tabel chi. Penghitungan nilai chi-kuadrat pada setiap kata yang muncul pada setiap kelas dapat dibantu dengan menggunakan tabel kontingensi. Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 menunjukkan tabel kontingensi antara kata terhadap kelas. Apabila frekuensi harapan pada kata dan kelas q adalah E pq, banyaknya frekuensi observasi dalam dokumen adalah, maka peluang dan dapat digunakan untuk menghitung frekuensi harapan yang diperoleh dengan rumus pada Persamaan 4: dengan nilai peluang kata dan peluang kelas: Tabel 1 Tabel kontingensi antara kata terhadap kelas Kata Kelas Kelas = 1 Kelas = 0 Kata = 1 A B Kata = 0 C D Penghitungan nilai chi-kuadrat berdasarkan tabel kontingensi tersebut disederhanakan dalam Persamaan 5. dengan t merupakan kata yang sedang diujikan terhadap suatu kelas c, merupakan jumlah dokumen latih, merupakan banyaknya dokumen pada kelas yang memuat kata, merupakan banyaknya dokumen yang tidak berada di namun memuat kata, merupakan banyaknya dokumen yang berada di kelas namun tidak memiliki kata di dalamnya, serta merupakan banyaknya dokumen yang bukan ) 3

4 merupakan dokumen kelas memuat kata. dan tidak Pengambilan keputusan dilakukan berdasarkan nilai dari masing-masing kata. Kata yang memiliki nilai di atas nilai kritis pada tingkat signifikansi α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas. Nilai kritis untuk tingkat signifikansi α ditunjukkan oleh Tabel 2. Tabel distribusi chi-kuadrat pada berbagai tingkat signifikansi dan derajat bebas tertentu ditunjukkan dalam Lampiran 2. Tabel 2 Nilai kritis signifikansi α α 0,1 0,05 0,01 0,005 0,001 untuk tingkat Nilai Kritis 2,71 3,84 6,63 7,83 10,83 Document frequency thresholding (DF) Document frequency thresholding (df) merupakan jumlah dokumen pada setiap kata unik yang muncul. Penghitungan df akan menghitung kemunculan kata unik dalam suatu kumpulan dokumen latih. Untuk menentukan bahwa kata tersebut berpengaruh terhadap suatu kumpulan dokumen, digunakan nilai threshold (Yimming 1997). Penentuan nilai threshold dilakukan dengan melihat sebaran kata dalam keseluruhan dokumen latih. Kata yang memiliki nilai df di atas nilai threshold yang telah ditentukan merupakan kata yang berpengaruh pada sekumpulan dokumen latih. Kata dengan nilai df yang rendah merupakan kata yang jarang muncul dalam koleksi dokumen latih. Dengan demikian, kata tersebut dianggap sebagai noise dalam data latih. Naive Bayes classifier Metode klasifikasi Naïve Bayes adalah salah satu metode klasifikasi yang mengasumsikan seluruh atribut dari contoh yang bersifat independen satu sama lain pada konteks kelas (McCallum & Nigam 1998). Meskipun secara umum asumsi tersebut merupakan asumsi yang buruk, pada praktiknya metode Naïve Bayes menunjukkan kinerja yang sangat baik (Rish 2001). Menurut Manning (2008), peluang Bayes dapat digunakan untuk menghitung peluang bersyarat, yaitu peluang kejadian apabila suatu kejadian diketahui. Metode ini dapat memprediksi kemungkinan anggota suatu kelas berdasarkan sampel yang berasal dari anggota kelas tersebut. Klasifikasi Naïve Bayes termasuk dalam model multinomial yang mengambil jumlah kata yang muncul pada sebuah dokumen. Pada model ini sebuah dokumen terdiri atas beberapa kejadian kata. Berdasarkan asumsi Bayes, kemungkinan tiap kejadian kata dalam tiap dokumen adalah bebas, tidak terpengaruh dengan konteks kata dan posisi kata dalam dokumen. Berdasarkan teori Bayes, peluang dokumen d untuk masuk ke dalam kelas c atau P ditunjukkan pada Persamaan 6: dengan P(dc) adalah peluang kemunculan dokumen d di kelas c, adalah peluang awal suatu dokumen masuk ke dalam kelas c, dan P(d) adalah peluang awal kemunculan dokumen d. Peluang awal kemunculan dokumen d dapat diabaikan karena memiliki nilai yang sama untuk seluruh kelas c, sehingga Persamaan 6 dapat disederhanakan dalam Persamaan 7: Rumus untuk menghitung nilai peluang dokumen masuk ke dalam kelas c dan peluang kemunculan dokumen d berada pada kelas c adalah dengan N c adalah banyaknya dokumen dalam kelas c, N adalah total dokumen, T cd adalah banyaknya d dalam dokumen latih dari kelas c. Menurut Manning et al. (2008) kelas yang paling sesuai bagi dokumen d adalah kelas yang memiliki nilai paling tinggi yaitu seperti ditunjukkan pada Persamaan 8: 4

5 Nilai peluang awal dapat diestimasi dengan melihat jumlah dokumen yang dimiliki oleh kelas c relatif terhadap jumlah seluruh dokumen yang ada. Nilai peluang awal diestimasi secara berbeda untuk setiap model Naïve Bayes (Metsis et al. 2006). Confusion matrix Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan salah oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al. 2005). Data uji diujikan untuk mendapatkan tingkat akurasi hasil prediksi yang berupa jumlah true positive, true negative, false positive, dan false negative seperti yang dilihat pada Tabel 3 (Rachman 2011). Tabel 3 Confusion matrix untuk klasifikasi biner Actual Class Predicted Class Class = 1 Class = 0 Class = 1 F11 F10 Class = 0 F01 F00 Keterangan untuk Tabel 3 dinyatakan sebagai berikut : F11, yaitu jumlah dokumen dari kelas 1 yang benar diklasifikasikan sebagai kelas 1. F00, yaitu jumlah dokumen dari kelas 0 yang benar diklasifikasikan sebagai kelas 0. F01, yaitu jumlah dokumen dari kelas 0 yang salah diklasifikasikan sebagai kelas 1. F10, yaitu jumlah dokumen dari kelas 1 yang salah diklasifikasikan sebagai kelas 0. Perhitungan akurasi dinyatakan dalam Persamaan 9. Recall precision Recall Precision adalah kriteria yang digunakan untuk mengevaluasi tingkat efektifitas kinerja sistem temu kembali informasi. Recall adalah rasio jumlah dokumen relevan yang ditampilkan (retrieve) terhadap jumlah seluruh dokumen yang relevan. Precision adalah rasio jumlah dokumen relevan yang ditampilkan terhadap jumlah seluruh dokumen yang ditampilkan (Manning 2008). Perhitungan recallprecision dijelaskan pada Persamaan 10 dan Persamaan 11 berikut. (10) (11) Menurut Baeza-Yates dan Ribeiro- Neto (1999), algoritme temu-kembali yang dievaluasi menggunakan beberapa kueri berbeda, akan menghasilkan nilai R-P yang berbeda untuk masing-masing kueri. Average Precision (AVP) diperlukan untuk menghitung rata-rata tingkat precision pada 11 tingkat recall, yaitu 0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, dan 1.0. Persamaan 12 merupakan formula untuk menghitung AVP. ( ) Asumsi, P (r j ) adalah AVP pada level recall r, Nq adalah jumlah kueri yang digunakan, dan adalah precision pada level recall r untuk kueri ke-i. SphinxSearch Sphinx adalah platform search engine yang didistribusikan pada GPL versi 2. Secara teknis, Sphinx merupakan perangkat lunak yang menyediakan fungsionalitas pencarian teks secara cepat dan relevan pada aplikasi yang berjalan di lingkungan klien. Sphinx telah dirancang khusus untuk berintegrasi dengan database SQL dan bahasa pemrograman tertentu (STI 2008). Sphinx memiliki dua jenis fungsi pembobotan, yaitu phase rank dan statistical rank. Phase rank adalah fungsi pembobotan berdasarkan panjang kata antara tubuh dokumen dan frasa kueri. Statistical rank adalah fungsi pembobotan berdasarkan frekuensi kata dalam dokumen. Salah satu mode pembobotan berdasarkan statistical rank adalah BM25. 5

6 Pada tahap pembangunan sistem temu kembali informasi, terlebih dahulu dilakukan pemrosesan dokumen dengan menggunakan SphinxSearch. Langkah yang dilakukan pertama kali yaitu melakukan pengindeksan ke semua koleksi dokumen. Proses pengeindeksan menghasilkan file hash. Perintah yang diberikan untuk melakukan pengindeksan koleksi dokumen adalah sebagai berikut: C:\Sphinx\bin\indexer.exe --config C:\Sphinx\sphinxDb.conf --all Langkah selanjutnya yaitu pembuatan service pada windows dengan nama SphinxSkripsi yang dapat dibuat dengan perintah sebagai berikut: C:\Sphinx\bin> C:\Sphinx\bin\searchd install config C:\Sphinx\sphinxDb.conf servicename SphinxSkripsi Service pada windows berguna untuk mencari hasil pengindeksan yang berupa file hash. Pembobotan BM25 Metode BM25 merupakan metode pembobotan kata yang memeringkatkan setiap kumpulan dokumen yang didasarkan pada kata dalam kueri yang muncul pada setiap dokumen. Rumus dalam menghitung skor pada algoritme BM25 ditunjukkan pada Persamaan 13 berikut (13) Persamaan 13 menjelaskan bahwa merupakan term frequency pada dokumen D, D merupakan banyaknya kata dalam dokumen D, dan avg dl merupakan rata-rata panjang dokumen dalam kumpulan teks dari dokumen tersimpan. k 1 dan b merupakan parameter bebas dimana nilai yang biasa dipilih untuk k 1 =2,0 dan b=0,75. IDF(q i ) merupakan bobot dari kata q i. Rumus untuk menghitung IDF ditunjukkan pada Persamaan 14 sebagai berikut METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahapan yang diilustrasikan pada Gambar 2. Data yang diproses dalam sistem ini adalah koleksi dokumen. Input lain yang digunakan adalah stopwords yang merupakan daftar kata buang yang akan digunakan pada tahapan praproses. Tahap selanjutnya adalah dilakukan proses pemilihan fitur pada dokumen latih, kemudian hasilnya digunakan sebagai landasan dalam pembuatan vector space model. Vector space model digunakan untuk melakukan pembobotan terhadap kata sehingga akan merepresentasikan dokumen ke dalam bentuk vektor. Tahapan berikutnya adalah melakukan klasifikasi Naïve Bayes pada dokumen uji yang belum diketahui kelasnya. Tahapan ini bertujuan untuk membangun model klasifikasi yang berupa indeks klasifikasi. Tahapan selanjutnya setelah model klasifikasi terbentuk yaitu pembangunan sistem temu kembali informasi yang akan mencari informasi berdasarkan hasil klasifikasi pada sistem. Pada tahap akhir, dilakukan evaluasi terhadap kinerja sistem klasifikasi dan kinerja sistem sistem temu kembali informasi yang dihasilkan. Dokumen tumbuhan obat Penelitian ini menggunakan koleksi dokumen tumbuhan obat sebagai korpus. Isi dari dokumen tidak diubah sehingga kesalahan ejaan dan tata bahasa tidak diperbaiki. Koleksi dokumen tumbuhan obat berjumlah 132 dokumen yang diperoleh dari buku-buku berikut: 1. Atlas Tumbuhan Obat Indonesia Jilid 1. Oleh dr. Setiawan Dalimartha 2. Atlas Tumbuhan Obat Indonesia Jilid 2. Oleh dr. Setiawan Dalimartha 3. Atlas Tumbuhan Obat Indonesia Jilid 3. Oleh dr. Setiawan Dalimartha 4. Obat Asli Indonesia Oleh Dr. Seno Sastroamidjojo 5. Ensiklopedi Millenium Jilid 1: Tumbuhan Berkhasiat Obat Indonesia. 6. Tumbuhan Obat dan Khasiatnya. Oleh Drs. H. Arief Hariana. dimana N merupakan banyaknya koleksi dokumen, dan merupakan jumlah dokumen yang memuat kata q i. 6

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN

EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN EKSTRAKSI CIRI DOKUMEN TUMBUHAN OBAT MENGGUNAKAN CHI-KUADRAT DENGAN KLASIFIKASI NAIVE BAYES YOGA HERAWAN DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah

1. Pendahuluan 1.1 Latar belakang 1.2 Perumusan masalah 1. Pendahuluan 1.1 Latar belakang Informasi telah menjadi kebutuhan primer pada kehidupan saat ini. Informasi seakan-akan menjadi mata uang baru yang membuat akurasi menjadi sangat penting ketika mencari

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

BAB I PERSYARATAN PRODUK

BAB I PERSYARATAN PRODUK BAB I PERSYARATAN PRODUK 1.1 PENDAHULUAN Pada saat kita melakukan pencarian melalui search engine (google.com, yahoo, dsb), kita bisa mendapatkan beberapa hasil, yang berupa dokumen - dokumen yang sama

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PEDAHULUA Kata kunci atau yang biasa disebut dengan query pada pencarian informasi dari sebuah search engine digunakan sebagai kriteria pencarian yang tepat dan sesuai dengan kebutuhan.

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

Rata-rata token unik tiap dokumen

Rata-rata token unik tiap dokumen Percobaan Tujuan percobaan ini adalah untuk mengetahui kinerja algoritme pengoreksian ejaan Damerau Levenshtein. Akan dilihat apakah algoritme tersebut dapat memberikan usulan kata yang cukup baik untuk

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System

Tugas Makalah. Sistem Temu Kembali Informasi (STKI) TI Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Tugas Makalah Sistem Temu Kembali Informasi (STKI) TI029306 Implementasi Metode Generalized Vector Space Model Pada Information Retrieval System Oleh : I PUTU ANDREAS WARANU 1204505042 Dosen : I Putu Agus

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 24 4 HASIL DAN PEMBAHASAN 4.1 Data Korpus Data korpus berisi berita-berita nasional berbahasa Indonesia dari tanggal 11 Maret 2002 sampai 11 April 2002. Berita tersebut berasal dari berita online harian

Lebih terperinci

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang

Lebih terperinci

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM

CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM CLUSTERING DOKUMEN BERBAHASA INDONESIA MENGGUNAKAN FUZZY C-MEANS ISNA MARIAM DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2011 CLUSTERING DOKUMEN

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI Laily Hermawanti Program Studi Teknik informatika Fakultas Teknik Universitas Sultan Fatah (UNISFAT) Jl. Diponegoro 1B Jogoloyo Demak Telpon

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi)

Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Sistem Informasi Tugas Akhir Menggunakan Model Ruang Vektor (Studi Kasus: Jurusan Sistem Informasi) Wahyudi,MT Laboratorium Sistem Informasi Fakultas Sains dan Teknologi UINSUSKA RIAU Jl.HR.Subrantas KM.15

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

UJI HIPOTESIS UNTUK PROPORSI

UJI HIPOTESIS UNTUK PROPORSI PENGUJIAN HIPOTESIS UJI HIPOTESIS UNTUK PROPORSI Uji Hipotesis untuk Proporsi Data statistik sampel: - = Proporsi kejadian sukses dalam sampel - p = Proporsi kejadian sukses dalam populasi - - Statistik

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy). BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Pada sekarang ini ketersediaan informasi berbentuk dokumen teks sebagian besar sudah berbentuk elektronik (softcopy). Kemungkinan penyimpanan media teks ke

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK

KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK KLASIFIKASI PELANGGAN DENGAN ALGORITME POHON KEPUTUSAN DAN PELUANG PELANGGAN YANG MERESPONS PENAWARAN DENGAN REGRESI LOGISTIK YUANDRI TRISAPUTRA & OKTARINA SAFAR NIDA (SIAP 16) Pendahuluan Latar Belakang

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

Pokok Bahasan: Chi Square Test

Pokok Bahasan: Chi Square Test Pokok Bahasan: Chi Square Test Start Pokok Bahasan A. Pengertian Distribusi Chi Kuadrat B. Uji Kecocokan (Goodness of Fit Test) (Kontigensi Table Test) 1 Instruksional Umum Memberi penjelasan tentang distribusi

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Sekarang ini, ketersediaan sumber informasi dalam bentuk dokumen teks sebagaian besar telah disajikan ke dalam bentuk elektronik. Kemungkinan penyimapan media

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

... BAB 2 LANDASAN TEORI. 2.1 Citra

... BAB 2 LANDASAN TEORI. 2.1 Citra 6 BAB 2 LANDASAN TEORI 2.1 Citra Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen gambar

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Program Studi Sistem Informasi, STMIK

Lebih terperinci

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal

Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis Konteks Lokal Tersedia secara online di: http://journal.ipb.ac.id/index.php.jika Volume 1 Nomor 1 halaman 22-29 ISSN: 2089-6026 Ekspansi Kueri pada Sistem Temu Kembali Informasi Berbahasa Indonesia Menggunakan Analisis

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi.

HASIL DAN PEMBAHASAN. Gambar 7 Diagram alur proses mutasi. 5 Mulai HASIL DAN PEMBAHASAN Kromosom P = rand [0,1] Ya P < Pm R = random Gen(r) dimutasi Selesai Tidak Gambar 7 Diagram alur proses mutasi. Hasil populasi baru yang terbentuk akan dievaluasi kembali dan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dipaparkan latar belakang penelitian, rumusan masalah, tujuan penelitian, ruang lingkup penelitian, tahapan penelitian, dan sistematika penulisan laporan. 1.1 Latar Belakang

Lebih terperinci

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan

BAB II TINJAUAN PUSTAKA. sekumpulan besar data yang tersimspan dalam penyimpanan dengan BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Data Mining A. Pengertian Data Mining Menurut Gartner Group data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan

Lebih terperinci

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI

UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI UNIVERSITAS MERCU BUANA FAKULTAS : ILMU KOMPUTER PROGRAM STUDI : SISTEM INFORMASI No. Dokumen 02-3.04.1.02 Distribusi Tgl. Efektif RENCANA PEMBELAJARAN SEMESTER Mata Kuliah Kode Rumpun MK Bobot (SKS) Semester

Lebih terperinci

KLASIFIKASI TEKS MENGGUNAKAN CHI SQUARE FEATURE SELECTION UNTUK MENENTUKAN KOMIK BERDASARKAN PERIODE, MATERI DAN FISIKDENGAN ALGORITMA NAIVEBAYES

KLASIFIKASI TEKS MENGGUNAKAN CHI SQUARE FEATURE SELECTION UNTUK MENENTUKAN KOMIK BERDASARKAN PERIODE, MATERI DAN FISIKDENGAN ALGORITMA NAIVEBAYES K LA S IF IK A S I TEKS M ENG G UNAKAN CHI SUUARE FEATURE SELECT/UNU NTUK M ENEN TU KAN K O M IK B E R D A S A R K A N PERIO DE, M ATERI DAN FIS IK D E N G A N A LG O R ITM A NANEBAYES KLASIFIKASI TEKS

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

LAPORAN TUGAS AKHIR. Disusun oleh: Franky LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah

Latent Semantic Analysis dan. Similarity untuk Pencarian. oleh : Umi Sa adah Metode Latent Semantic Analysis dan Algoritma Weighted Tree Similarity untuk Pencarian berbasis b Semantik oleh : Umi Sa adah 5109201030 Pembimbing : Prof. Drs.Ec. Ir. Riyanarto Sarno, M.Sc, Ph.D Umi Laili

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

HASIL DAN PEMBAHASAN. B fch a. d b

HASIL DAN PEMBAHASAN. B fch a. d b 7 dengan nilai σ yang digunakan pada tahap pelatihan sebelumnya. Selanjutnya dilakukan perhitungan tingkat akurasi SVM terhadap citra yang telah diprediksi secara benar dan tidak benar oleh model klasifikasi.

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI

XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI XML RETRIEVAL UNTUK DOKUMEN BAHASA INDONESIA MARYAM NOVIYANA BAHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 XML RETRIEVAL UNTUK DOKUMEN

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Sumber informasi atau referensi sudah merupakan hal yang tidak asing lagi bagi seorang peneliti, terutamanya bagi para mahasiswa yang sedang melakukan penelitian untuk

Lebih terperinci

4 HASIL DAN PEMBAHASAN

4 HASIL DAN PEMBAHASAN 4 HASIL DAN PEMBAHASAN Penelitian ini dibuat menggunakan bahasa pemrograman PHP untuk tahapan praproses data, implementasi algoritme DIG dan pembangkitan metafile penyusun struktur digraf. Representasi

Lebih terperinci

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak TEKNIK DATA MINING MENGGUNAKAN METODE BAYES CLASSIFIER UNTUK OPTIMALISASI PENCARIAN PADA APLIKASI PERPUSTAKAAN (STUDI KASUS : PERPUSTAKAAN UNIVERSITAS PASUNDAN BANDUNG) Oleh : Selvia Lorena Br Ginting,

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Internet saat ini merupakan kebutuhan pokok yang tidak bisa dipisahkan dari segenap sendi kehidupan. Berbagai pekerjaan ataupun kebutuhan dapat dilakukan melalui media

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN : Analisis Perbandingan Metode Vector Space Model dan Weighted Tree Similarity dengan Cosine Similarity pada kasus Pencarian Informasi Pedoman Pengobatan Dasar di Puskesmas Viko Basmalah Wicaksono Jurusan

Lebih terperinci