KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

Ukuran: px
Mulai penontonan dengan halaman:

Download "KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA"

Transkripsi

1 KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

2 KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 ABSTRACT MUTHIA AZIZA. Indonesian document classification using Adaptive Classifier Combination (ACC). Supervised by JULIO ADISANTOSO. Search engine is a tool to find an information that match with user s request based on query or keywords. However, the query of search engine often shows irrelevance sites that didn t match with user s desire. Classification was developed to focused user s request on the information that they searched, so the result would be more accurate and less effort yet effective and efficient for the system. Adaptive Classifier Combination is one of many methods that can be used for text classification. This method is a combination between k-nearest neighbor classification and Naive Bayes classification to get a better result than using single method. The result of this research is an implementation of web-based application that developed using PHP language. The document is from horticulture reasearch journal from 2002 until From 340 documents, 300 document is used for data training and 40 documents is for testing. The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%. Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination

4 Judul Nama NIM : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) : Muthia Aziza : G Menyetujui, Pembimbing, Ir. Julio Adisantoso, M. Kom NIP Mengetahui, Ketua Departemen Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus :

5 PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-nya sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009 sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer. Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain: 1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan selama penulis menjalankan penelitian 2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya. 3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan, Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat. 4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan selaku penghibur dikala jenuh selama penulis mengerjakan penelitian. 5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini. Semoga karya ilmiah ini bermanfaat. Bogor, Januari 2012 Muthia Aziza

6 RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara. Tahun 2005, penulis lulus dari SMUN 78 Jakarta dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2009, penulis menjalankan kegiatan praktik lapangan di Agroedutourism IPB

7

8 DAFTAR ISI halaman PENDAHULUAN Latar Belakang....1 Tujuan....1 Ruang Lingkup....1 TINJAUAN PUSTAKA Information Retrieval....1 Klasifikasi....2 Naïve Bayes....2 K-Tetangga Terdekat....2 Adaptive Classifier Combination....3 Confusion Matrix....3 METODE PENELITIAN Karakteristik Dokumen....3 Pengindeksan....4 Klasifikasi ACC....4 Klasifikasi Naïve Bayes....4 Evaluasi Klasifikasi....4 Lingkungan Pengembangan Sistem....4 HASIL DAN PEMBAHASAN Karakteristik Dokumen....4 Pengindeksan....4 Training....4 Testing....4 Klasifikasi ACC....5 Klasifikasi Naïve Bayes....5 Evaluasi Klasifikasi....5 KESIMPULAN DAN SARAN Kesimpulan....7 Saran....7 DAFTAR PUSTAKA....7 LAMPIRAN

9 DAFTAR GAMBAR halaman 1 Metode Penelitian Tingkat Akurasi dengan berbagai nilai k... 5 DAFTAR TABEL halaman 1 Confusion Matrix Nilai k Confusion matrix klasifikasi ACC Confusion matrix klasifikasi naïve bayes... 6 DAFTAR LAMPIRAN halaman 1 Antarmuka Sistem ACC v

10 Latar Belakang PENDAHULUAN Seringkali pengguna sulit menemukan informasi yang diinginkan dengan cepat dan tepat pada web. Dari permasalahan ini muncul keinginan untuk mengembangkan alat dan perangkat lunak yang berguna dan efisien untuk membantu pengguna mencari informasi dalam web (Arifin & Setiono 2000). Mesin pencari adalah contoh alat yang mencari informasi sesuai dengan permintaan pengguna berdasarkan kueri atau kata kunci yang dimasukkan oleh pengguna. Tetapi tidak jarang juga kueri mesin pencari memunculkan dokumen yang tidak sesuai dengan keinginan pengguna. Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih akurat dan usaha yang dilakukan sistem lebih efektif dan efisien. Klasifikasi dokumen mengelompokkan dokumen yang sesuai dengan kategori yang terkandung pada dokumen tersebut. Apabila terdapat permintaan yang sudah diketahui memiliki kategori tertentu, pencarian dokumen hanya dilakukan pada kumpulan dokumen yang memiliki kategori tersebut, tidak dilakukan pada semua kumpulan dokumen yang dimiliki sehingga proses pencarian dapat dilakukan dengan cepat. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti naïve bayes, k-nearest neighbor, decision trees, dan lain-lain. Pramujadi (2010) telah menggunakan metode Naive Bayes classifier (NBC) yang merupakan salah satu metode untuk teks atau klasifikasi dokumen. Masalah umum yang sering terjadi pada metode NBC adalah data sparsity, terutama ketika ukuran data latih terlalu kecil. Salah satu cara untuk mengangani masalah sparsity adalah dengan menggunakan teknik background smoothing. Tujuan penelitian ini adalah untuk melihat efek background smoothing pada query pendek dan panjang, dan membandingkannya dengan NBC pada data pelatihan kecil. Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda (combination of multiple classifier) dapat menambah keakuratan klasifikasi (Li & Jain 1998). Simple voting, dynamic classifier selection (DCS), dan adaptive classifier combination (ACC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. Tiap-tiap metode klasifikasi seringkali menghasilkan kelas yang berbeda-beda untuk satu dokumen tes. Li dan Jain (1998) telah meneliti keakuratan simple voting, dynamic classifier selection, dan adaptive classifier combination untuk klasifikasi dokumen dalam bahasa Inggris. ACC merupakan kombinasi dari naïve bayes dengan k-nearest neighbor. Karena merupakan kombinasi dari dua buah classifier, ACC dinilai cukup baik untuk digunakan sebagai metode klasifikasi. Tujuan Penelitian Tujuan utama dari penelitian ini adalah mengimplementasikan kinerja adaptive classifier combination untuk meningkatkan keakuratan klasifikasi dokumen berbahasa Indonesia. Ruang Lingkup Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan adaptive classifier combination pada dokumen berbahasa Indonesia. 2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen. Information Retrieval TINJAUAN PUSTAKA Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al 2008). Untuk menemukembalikan informasi terdapat proses pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term yang berhasil dikenali dari proses pemisahan term. Vektor tersebut beranggotakan bobot dari tiap term. Salah satu metode yang dapat digunakan untuk menghitung bobot term adalah metode tf.idf. Metode tf.idf merupakan metode 1

11 pembobotan yang merupakan hasil kali antar term frequency (tf), dan inverse document frequency (idf) yaitu: (1) sedangkan w t,d adalah bobot dari term t dalam dokumen d, tf t adalah frekuensi term t dalam dokumen (tf), N merupakan ukuran dokumen yang ada dalam koleksi yang digunakan untuk penghitungan idf, dan df t adalah jumlah dari dokumen yang ada di koleksi yang mengandung nilai t. Proses mendapatkan informasi yang dibutuhkan oleh pengguna berupa suatu query dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, sehingga perlu diformulasikan agar terjadi dialog interaktif antara pengguna dan sistem. Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna. Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan (Pramurjadi 2010). Klasifikasi Klasifikasi yaitu proses untuk menemukan sekumpulan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya (supervised learning) (Han & Kamber 2001). Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi, maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui. Naïve bayes Naïve Bayes merupakan metode klasifikasi dengan cara menghitung peluang sebuah dokumen d berada di kelas c (Manning, 2008). Kelas terbaik pada klasifikasi naïve bayes adalah kelas yang paling mirip dengan dokumen yang ingin diklasifikasikan atau yang mempunyai nilai posteriori tertinggi atau maximum a posteriori (MAP), dengan rumus: sedangkan merupakan nilai penduga peluang suatu dokumen d dikelaskan ke dalam kelas c, dengan rumus: (2) sedangkan adalah peluang prior dari dokumen yang ada di dalam kelas c yang didapat dari, sedangkan Nc merupakan banyak dokumen yang ada di dalam kelas c, N adalah total dokumen yang ada, dan adalah peluang bersyarat dari term muncul dalam sebuah dokumen pada kelas c. diartikan sebagai ukuran seberapa banyak term menyumbang untuk menunjukkan c merupakan kelas yang tepat untuk dokumen d. Nilai didapat dari: (3) sedangkan adalah jumlah kemunculan term t dalam dokumen latih di kelas c, termasuk kemunculan ganda term t pada dokumen. Nilai penjumlahan adalah jumlah seluruh term pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan B adalah jumlah term dalam vocabulary seluruh dokumen. K-Tetangga Terdekat K-tetangga terdekat atau K-nearest neighbor (knn) merupakan metode klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dimana k adalah sebuah parameter (Manning, 2008). Metode knn bekerja dengan berdasarkan pada jarak terdekat antara dokumen d dengan dokumen lainnya untuk menentukan tetangga terdekatnya. Setelah itu diambil mayoritas kelas dokumen yang merupakan tetangga terdekat untuk menentukan kelas dokumen d. Pembobotan juga bisa dilakukan pada knn dari kesamaan cosine. Skor kelas dihitung sebagai berikut: 2

12 dimana adalah sekumpulan dari k tertangga terdekat dari dokumen d dan bernilai 1 jika dan hanya jika dokumen d terdapat di kelas c dan bernilai 0 jika sebaliknya. adalah ukuran kesamaan cosine antara dokumen d dengan d. Dokumen akan dimasukkan ke kelas yang mempunyai skor tertinggi. Adaptive Classifier Combination Adaptive classifier combination (ACC) adalah metode klasifikasi yang menggabungkan metode naïve bayes dengan k-tetangga terdekat. ACC memasukkan dokumen d ke dalam kelas c i, dimana kelas yang akan dimasukkan diidentifikasikan oleh classifier dengan local accuracy tertinggi dari semua kelas yang ada (Y. H. Li & A.K. Jain, 1998). Untuk sebuah dokumen uji d yang akan diklasifikasikan, cari tetangga dari dokumen uji d menggunakan metode k-nearest neighbor. Kemudian hasil klasifikasi untuk dokumen d oleh n classifier ditunjukkan sebagai. Setelah itu, untuk setiap kelas dihitung: (4) dimana merupakan peluang x i terdapat pada kelas c j dan W i merupakan ukuran kesamaan kosinus antara x i dan d. Kemudian dokumen d dimasukkan ke kelas c k, dengan rumus: Confusion Matrix (5) Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al 2005). Tabel 1 Confusion Matrix Actual Class Predicted Class Class = 1 Class = 0 Class = 1 F11 F10 Class = 0 F01 F00 Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah: Akurasi = METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahap yang diilustrasikan pada Gambar 1. Secara garis besar tahapannya adalah pengumpulan data, praproses, implementasi sistem, klasifikasi ACC dan evaluasi klasifikasi. Karakteristik Dokumen Koleksi dokumen yang digunakan sebagai data latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009 dengan format XML. Dokumen pada data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem. Dokumen yang dijadikan data latih sebanyak 300 dokumen dan 40 dokumen sebagai dokumen uji. Dokumen tersebut akan dibagi menjadi lima kelas yaitu fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5). Klasifikasi ACC Mulai Pengumpulan Data Implementasi Sistem Confusion Matrix Selesai Gambar 1 Metode Penelitian Klasifikasi Naïve Bayes 3

13 Training Dokumen pada data training atau data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem untuk mengetahui dokumen yang belum diketahui kelasnya pada data uji. Data latih sebanyak 300 dokumen tersebut dibagi menjadi lima kelas, kelas (1) yaitu fisiologi dan agronomi terdapat 87 dokumen, kelas (2) yaitu pemuliaan dan teknologi benih terdapat 73 dokumen, kelas (3) yaitu proteksi terdapat 97 dokumen, kelas (4) yaitu pascapanen dan pascaproduksi terdapat 34 dokumen, dan kelas (5) yaitu agroekonomi terdapat 9 dokumen. Dokumen yang telah diklasifikasikan secara manual tersebut disimpan dalam format.txt dengan struktur [nama file dokumen][,] [kelasnya]. Testing Data testing atau data uji dimasukkan oleh user dengan meng-upload file XML yang ada di koleksi ke dalam sistem. Kemudian dokumen uji yang di-upload diambil term-term penciri dokumen dan dihitung tf.idf-nya. Setelah itu dilakukan perhitungan menggunakan metode ACC untuk mengetahui kelas dokumen uji. Pengindeksan Tahap pengindeksan dilakukan untuk menghasilkan term-term yang akan digunakan sebagai penciri dokumen dan dilakukan pembobotan tf.idf dengan menggunakan (1) akan diperoleh bobot tiap term. Hasil dari tahap pengindeksan akan disimpan dalam file teks tersendiri untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen. Klasifikasi Naive Bayes Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen testing terdapat di suatu kelas dengan menggunakan (3). Setelah itu dilakukan perhitungan peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi. Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen uji terdapat di suatu kelas dengan menggunakan (3). Contoh dokumen latih adalah dokumen jurnalhorti1.txt dengan term pengaruh, macam, dosis, pupuk, organik, hasil, kentang, dataran, dium, lahan, sawah, subhan, deden, fatchullah. Term-term tersebut dihitung peluang terdapat di suatu kelas menggunakan (3) dengan membandingkan dengan term-term pada data latih. Setelah perhitungan (3), dilakukan perhitungan Naive Bayes yaitu dengan menghitung peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi berdasarkan rumus. Klasifikasi ACC Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi ACC yang merupakan gabungan dari algoritme klasifikasi KNN dengan Naïve Bayes. Tahap ini diawali dengan penghitungan panjang vektor semua dokumen pada korpus. Setelah itu dilakukan perhitungan perkalian vektor atau dot product antara dokumen testing dengan data latih kemudian dihitung kesamaannya dengan ukuran kesamaan cosine dan diambil K hasil tertinggi sebagai K tetangga terdekat. Selanjutnya dilakukan proses perhitungan dengan algoritme Naive Bayes dengan data latih sebesar K. Uji coba dilakukan dengan menggunakan beberapa nilai k pada algoritme knn. Nilai k yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, dan 15. Nilai k yang paling optimal adalah yang menghasilkan error atau salah kelas paling sedikit. Dengan kata lain, k yang paling optimal adalah yang paling banyak menempatkan data test ke dalam kelas sesungguhnya. Evaluasi Klasifikasi Pada tahap evaluasi dilakukan penilaian kinerja sistem dengan melakukan pengukuran presentase ketepatan dalam klasifikasi dokumen menggunakan confusion matrix. Lingkungan Pengembangan Sistem Spesifikasi beberapa perangkat lunak dan perangkat keras yang digunakan dalam penelitian ini adalah sebagai berikut : 4

14 1. Perangkat Lunak : Sistem operasi Microsoft Windows Vista Notepad++ 2. Perangkat Keras : Intel Pentium Ghz Memory 1536 MB RAM Monitor resolusi 1024 x 768 pixel Mouse dan keyboard HASIL DAN PEMBAHASAN Klasifikasi Naive Bayes Hasil klasifikasi Naive Bayes dengan dokumen tes jurnalhorti1.txt yang didapat dari menghitung peluang dokumen jurnalhorti1.txt terdapat di kelas fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5) adalah , , , , Dengan demikian jurnalhorti.txt dengan menggunakan metode Naive Bayes akan dimasukkan ke dalam kelas fisiologi dan agronomi karena mempunyai nilai tertinggi yaitu sebesar ~ Klasifikasi ACC Hasil klasifikasi ACC sangat bergantung pada knn yang mana dipengaruhi oleh nilai k. Untuk mengetahui nilai k yang optimal, yaitu nilai k yang mempunyai akurasi tertinggi, dilakukan uji coba nilai k. Berikut adalah hasil uji coba nilai k. Tabel 2 Tabel nilai k Nilai k Jumlah dokumen dengan kelas yang tepat Dari Tabel 2 dapat dilihat bahwa nilai k=11 merupakan yang paling optimal karena jumlah dokumen yang dikelaskan di kelas yang tepat mempunyai jumlah paling tinggi, yaitu sebanyak 32 dokumen, dibandingkan dengan nilai k yang lain. Akurasi tidak bergantung pada banyaknya nilai k, hal ini dapat dilihat bahwa akurasi dengan nilai k=2 lebih baik daripada nilai k=3. Pada Gambar 6 dapat dilihat bahwa nilai k=3 menghasilkan tingkat akurasi paling rendah diantara nilai k yang lain. Nilai k yang paling optimal adalah k=11 dengan akurasi sebesar 80%. Artinya bahwa dalam penelitian ini dokumen uji paling banyak dikelaskan secara tepat sesuai dengan kelas sebenarnya dengan tingkat keakuratan 80% pada k=11. Maka, untuk menghitung tingkat akurasi sebagai evaluasi klasifikasi, akan digunakan k=11 Evaluasi Klasifikasi Evaluasi yang dilakukan pada tahapan ini yaitu dengan membandingkan berapa dokumen yang dikelaskan dengan benar dengan kelas yang sebenarnya. Hasil dari evaluasi klasifikasi ACC dapat dilihat pada Tabel 3. Gambar 2 Tingkat Akurasi dengan berbagai nilai k 5

15 Tabel 3 Confusion matrix klasifikasi ACC Kelas Prediksi Kelas Aktual Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, dengan metode ACC terdapat 8 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pemuliaan dan teknoligi benih (2), tidak ada (0) dokumen yang dikelaskan ke dalam kelas proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi ACC adalah 80%. Hasil evaluasi klasifikasi menggunakan metode naïve bayes dapat dilihat pada Tabel 4. Tabel 4 Confusion matrix klasifikasi naïve bayes Kelas Aktual Kelas Prediksi Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, namun dengan metode Naive Bayes terdapat 3 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), terdapat 4 dokumen yang salah prediksi ke dalam kelas pemuliaan dan teknologi benih (2), terdapat 1 dokumen yang salah prediksi ke dalam kelas - proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi naïve bayes adalah 42.5%. Dari kedua hasil diatas dapat diartikan ketika dilakukan klasifikasi dokumen dengan menggunakan metode ACC peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 80%. Dengan menggunakan metode naïve bayes peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 42.5%. KESIMPULAN DAN SARAN Kesimpulan Dari 40 dokumen hortikultura yang didapat dari laboratorium Temu Kembali Informasi diklasifikasikan menggunakan metode ACC dengan data latih berjumlah 300 menghasilkan akurasi sebesar 80%. Dengan menggunakan metode Naive Bayes dengan jumlah data latih dan dokumen uji yang sama menghasilkan akurasi sebesar 42.5%. Dari percobaan dapat dilihat klasifikasi ACC menghasilkan prediksi kelas yang jauh lebih akurat dibandingkan dengan klasifikasi Naive Bayes. Dari hasil percobaan dapat dilihat bahwa klasifikasi dokumen menggunakan metode ACC dapat meningkatkan keakuratan hasil klasifikasi. Saran Pada penelitian ini dokumen yang dipakai adalah dokumen dengan satu topik yang sama yaitu hortikultura yang kemudian dikelaskan lagi ke dalam sub-sub kelas. Untuk pengembangan selanjutnya dapat dicoba menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas yang lebih umum untuk dapat melihat kinerja klasifikasi menggunakan ACC dan dibandingkan dengan metode klasifikasi lainnya. 6

16 Pada penelitian ini setelah dokumen test diketahui prediksi kelasnya tidak dimasukkan lagi ke dalam sistem untuk dijadikan data latih yang baru. Untuk pengembangan selanjutnya dokumen uji yang telah diketahui kelasnya dapat dimasukkan sebagai data latih yang baru agar sistem menjadi lebih akurat. DAFTAR PUSTAKA Arifin AZ, Ari NS Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritme Single Pass Clustering. Surabaya. Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember. Han J, Kamber M Data Mining: Concept and Techniques. USA: Morgan Kaufmann Publishers. Juniawan I Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis (MCA). [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor. Li YH, AK Jain Classification of Text Document. Department of Computer Science and Engineering, Michigan State University. Michigan. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. New York : Cambridge University Press. Pramurjadi A Klasifikasi Dokumen Menggunakan Background Smoothing. [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor. Ramadan R Penerapan Pohon Untuk Klasifikasi Dokumen Teks Berbahasa Inggris. Bandung. Program Studi Teknik Informatika Institut Teknologi Bandung. 7

17 LAMPIRAN 8

18 Lampiran 1a Antarmuka sistem ACC. Lampiran 1b Antarmuka pemilihan dokumen. Lampiran 1c Antarmuka hasil klasifikasi. 9

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

PENDAHULUAN TINJAUAN PUSTAKA

PENDAHULUAN TINJAUAN PUSTAKA Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #8 Text Classification (Manning, Ch.13, p.288/253) Ad Hoc Retrieval vs Standing Query User mencari informasi dengan memberikan satu atau lebih query terhadap koleksi

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract

Bernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 KLASIFIKASI DOKUMEN MENGGUNAKAN

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL

APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan

Lebih terperinci

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :

PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM : PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS

Lebih terperinci

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,

Lebih terperinci

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak TEKNIK DATA MINING MENGGUNAKAN METODE BAYES CLASSIFIER UNTUK OPTIMALISASI PENCARIAN PADA APLIKASI PERPUSTAKAAN (STUDI KASUS : PERPUSTAKAAN UNIVERSITAS PASUNDAN BANDUNG) Oleh : Selvia Lorena Br Ginting,

Lebih terperinci

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Inera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G

PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga

Lebih terperinci

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra

Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Jurnal Ilmiah Ilmu Komputer, Vol 15 No. 2, Desember 2010 : 38-41 Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Vera Yunita, Yeni Herdiyeni Departemen Ilmu

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN 1.1. Rancangan Penelitian Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk pertanyaan-pertanyaan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE SIMILARITY SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM34 Temu Kembali Informasi KULIAH #7 Text Classifiation Ad Ho Retrieval User menari informasi dengan memberikan satu atau lebih query terhadap koleksi terkini. : menari multiore omputer hips terbaru.

Lebih terperinci

Abidah Elcholiqi, Beta Noranita, Indra Waspada

Abidah Elcholiqi, Beta Noranita, Indra Waspada Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah

Lebih terperinci

JULIO ADISANTOSO - ILKOM IPB 1

JULIO ADISANTOSO - ILKOM IPB 1 KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari BAB I PENDAHULUAN 1.1 Latar Belakang Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari internet ataupun milik pribadi juga semakin berkembang. Permasalahan utama adalah bagaimana memperoleh

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini sudah banyak sistem klasifikasi yang diciptakan dalam rangka membantu pengguna dalam melakukan pengklasifikasian dokumen, baik dokumen yang berbentuk

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR

PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.

HASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya. beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS

Lebih terperinci

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang BAB I PENDAHULUAN 1.1.Latar Belakang Masalah Tugas Akhir (TA) atau Skripsi merupakan suatu karya tulis ilmiah, berupa paparan tulisan hasil penelitian yang membahas suatu masalah dalam bidang ilmu tertentu

Lebih terperinci

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA

TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

MENENTUKAN NILAI TES ESAI ONLINE MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN PEMBOBOTAN TERM FREQUENCY/ INVERSE DOCUMENT FREQUENCY

MENENTUKAN NILAI TES ESAI ONLINE MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN PEMBOBOTAN TERM FREQUENCY/ INVERSE DOCUMENT FREQUENCY MENENTUKAN NILAI TES ESAI ONLINE MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN PEMBOBOTAN TERM FREQUENCY/ INVERSE DOCUMENT FREQUENCY SKRIPSI FAKHREZA AKBAR 071401014 PROGRAM STUDI S1 ILMU

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci