KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA
|
|
- Inge Sumadi
- 6 tahun lalu
- Tontonan:
Transkripsi
1 KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
2 KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA Skripsi Sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
3 ABSTRACT MUTHIA AZIZA. Indonesian document classification using Adaptive Classifier Combination (ACC). Supervised by JULIO ADISANTOSO. Search engine is a tool to find an information that match with user s request based on query or keywords. However, the query of search engine often shows irrelevance sites that didn t match with user s desire. Classification was developed to focused user s request on the information that they searched, so the result would be more accurate and less effort yet effective and efficient for the system. Adaptive Classifier Combination is one of many methods that can be used for text classification. This method is a combination between k-nearest neighbor classification and Naive Bayes classification to get a better result than using single method. The result of this research is an implementation of web-based application that developed using PHP language. The document is from horticulture reasearch journal from 2002 until From 340 documents, 300 document is used for data training and 40 documents is for testing. The accuracy of ACC is 80% and for Naive Bayes classification is 42.5%. Keywords: classification, k-nearest neighbor, Naive Bayes, adaptive classifier combination
4 Judul Nama NIM : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) : Muthia Aziza : G Menyetujui, Pembimbing, Ir. Julio Adisantoso, M. Kom NIP Mengetahui, Ketua Departemen Dr. Ir. Sri Nurdiati, M.Sc NIP Tanggal Lulus :
5 PRAKATA Puji dan syukur penulis panjatkan kepada Allah SWT atas segala rahmat dan hidayah-nya sehingga tugas akhir dengan judul Klasifikasi Dokumen Bahasa Indonesia Menggunakan Adaptive Classifier Combination (ACC) dapat terselesaikan. Penelitian ini dilaksanakan mulai Maret 2009 sampai dengan Desember 2010, bertempat di Departemen Ilmu Komputer. Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain: 1 Kepada Bapak Ir. Julio Adisantoso, M.Kom. selaku pembimbing yang telah banyak memberi arahan selama penulis menjalankan penelitian 2 Kepada mama, papa, mas Ojan, mbak Maya, bude Anis, Lidya, Lulu, Fajar, Faiz, Nadine serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya. 3 Kepada teman seperjuangan satu bimbingan, Tara, Elen, Netty, Utis, Hendrex, Tina, Eka, Yuchan, Wildan yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat. 4 Kepada Tsamrul Fuad, suami, sahabat terbaik yang pernah ada, atas semangat, dukungan, dan selaku penghibur dikala jenuh selama penulis mengerjakan penelitian. 5 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini. Semoga karya ilmiah ini bermanfaat. Bogor, Januari 2012 Muthia Aziza
6 RIWAYAT HIDUP Penulis dilahirkan di Jakarta pada tanggal 9 Juli 1987 dari ayah Achmad Suyuthi Dahlan dan Ibu Charisa Sullam. Penulis merupakan anak ketiga dari tiga bersaudara. Tahun 2005, penulis lulus dari SMUN 78 Jakarta dan pada tahun yang sama penulis diterima di Institut Pertanian Bogor (IPB) melalui jalur SPMB. Tahun 2007, penulis diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, IPB. Tahun 2009, penulis menjalankan kegiatan praktik lapangan di Agroedutourism IPB
7
8 DAFTAR ISI halaman PENDAHULUAN Latar Belakang....1 Tujuan....1 Ruang Lingkup....1 TINJAUAN PUSTAKA Information Retrieval....1 Klasifikasi....2 Naïve Bayes....2 K-Tetangga Terdekat....2 Adaptive Classifier Combination....3 Confusion Matrix....3 METODE PENELITIAN Karakteristik Dokumen....3 Pengindeksan....4 Klasifikasi ACC....4 Klasifikasi Naïve Bayes....4 Evaluasi Klasifikasi....4 Lingkungan Pengembangan Sistem....4 HASIL DAN PEMBAHASAN Karakteristik Dokumen....4 Pengindeksan....4 Training....4 Testing....4 Klasifikasi ACC....5 Klasifikasi Naïve Bayes....5 Evaluasi Klasifikasi....5 KESIMPULAN DAN SARAN Kesimpulan....7 Saran....7 DAFTAR PUSTAKA....7 LAMPIRAN
9 DAFTAR GAMBAR halaman 1 Metode Penelitian Tingkat Akurasi dengan berbagai nilai k... 5 DAFTAR TABEL halaman 1 Confusion Matrix Nilai k Confusion matrix klasifikasi ACC Confusion matrix klasifikasi naïve bayes... 6 DAFTAR LAMPIRAN halaman 1 Antarmuka Sistem ACC v
10 Latar Belakang PENDAHULUAN Seringkali pengguna sulit menemukan informasi yang diinginkan dengan cepat dan tepat pada web. Dari permasalahan ini muncul keinginan untuk mengembangkan alat dan perangkat lunak yang berguna dan efisien untuk membantu pengguna mencari informasi dalam web (Arifin & Setiono 2000). Mesin pencari adalah contoh alat yang mencari informasi sesuai dengan permintaan pengguna berdasarkan kueri atau kata kunci yang dimasukkan oleh pengguna. Tetapi tidak jarang juga kueri mesin pencari memunculkan dokumen yang tidak sesuai dengan keinginan pengguna. Klasifikasi dikembangkan untuk memfokuskan pencarian pengguna pada informasi yang ingin dicari, sehingga hasil akan menjadi lebih akurat dan usaha yang dilakukan sistem lebih efektif dan efisien. Klasifikasi dokumen mengelompokkan dokumen yang sesuai dengan kategori yang terkandung pada dokumen tersebut. Apabila terdapat permintaan yang sudah diketahui memiliki kategori tertentu, pencarian dokumen hanya dilakukan pada kumpulan dokumen yang memiliki kategori tersebut, tidak dilakukan pada semua kumpulan dokumen yang dimiliki sehingga proses pencarian dapat dilakukan dengan cepat. Banyak metode yang bisa digunakan untuk klasifikasi teks, seperti naïve bayes, k-nearest neighbor, decision trees, dan lain-lain. Pramujadi (2010) telah menggunakan metode Naive Bayes classifier (NBC) yang merupakan salah satu metode untuk teks atau klasifikasi dokumen. Masalah umum yang sering terjadi pada metode NBC adalah data sparsity, terutama ketika ukuran data latih terlalu kecil. Salah satu cara untuk mengangani masalah sparsity adalah dengan menggunakan teknik background smoothing. Tujuan penelitian ini adalah untuk melihat efek background smoothing pada query pendek dan panjang, dan membandingkannya dengan NBC pada data pelatihan kecil. Beberapa peneliti telah menunjukkan bahwa mengombinasikan metode klasifikasi yang berbeda (combination of multiple classifier) dapat menambah keakuratan klasifikasi (Li & Jain 1998). Simple voting, dynamic classifier selection (DCS), dan adaptive classifier combination (ACC) adalah contoh metode yang menggabungkan beberapa metode klasifikasi. Tiap-tiap metode klasifikasi seringkali menghasilkan kelas yang berbeda-beda untuk satu dokumen tes. Li dan Jain (1998) telah meneliti keakuratan simple voting, dynamic classifier selection, dan adaptive classifier combination untuk klasifikasi dokumen dalam bahasa Inggris. ACC merupakan kombinasi dari naïve bayes dengan k-nearest neighbor. Karena merupakan kombinasi dari dua buah classifier, ACC dinilai cukup baik untuk digunakan sebagai metode klasifikasi. Tujuan Penelitian Tujuan utama dari penelitian ini adalah mengimplementasikan kinerja adaptive classifier combination untuk meningkatkan keakuratan klasifikasi dokumen berbahasa Indonesia. Ruang Lingkup Ruang lingkup penelitian ini meliputi: 1. Penelitian ini difokuskan kepada klasifikasi dokumen dengan menggunakan adaptive classifier combination pada dokumen berbahasa Indonesia. 2. Penelitian dibatasi pada tahap klasifikasi dokumen, tidak sampai proses temu kembali dokumen. Information Retrieval TINJAUAN PUSTAKA Information retrieval atau temu kembali informasi merupakan pencarian material, yang biasanya dokumen, dari sesuatu yang tidak terstruktur, biasanya teks, yang memenuhi kebutuhan informasi dari sekumpulan koleksi yang besar yang biasanya disimpan di komputer (Manning et al 2008). Untuk menemukembalikan informasi terdapat proses pengindeksan tertentu seperti tokenisasi kata, membuang stopword, dan stemming sehingga menghasilkan himpunan kosa kata sebagai dokumen indeks. Proses pengindeksan tersebut melibatkan isi dari seluruh kumpulan dokumen atau biasanya hanya terdiri atas judul atau kata kunci dan abstrak dari kumpulan dokumen. Tiap dokumen diwujudkan sebagai sebuah vektor dengan elemen sebanyak term yang berhasil dikenali dari proses pemisahan term. Vektor tersebut beranggotakan bobot dari tiap term. Salah satu metode yang dapat digunakan untuk menghitung bobot term adalah metode tf.idf. Metode tf.idf merupakan metode 1
11 pembobotan yang merupakan hasil kali antar term frequency (tf), dan inverse document frequency (idf) yaitu: (1) sedangkan w t,d adalah bobot dari term t dalam dokumen d, tf t adalah frekuensi term t dalam dokumen (tf), N merupakan ukuran dokumen yang ada dalam koleksi yang digunakan untuk penghitungan idf, dan df t adalah jumlah dari dokumen yang ada di koleksi yang mengandung nilai t. Proses mendapatkan informasi yang dibutuhkan oleh pengguna berupa suatu query dari pengguna yang merepresentasikan permintaan informasi. Query umumnya tidak memiliki struktur, sehingga perlu diformulasikan agar terjadi dialog interaktif antara pengguna dan sistem. Perbandingan query terhadap permintaan informasi disebut proses penyesuaian (matching process). Pada proses inilah diharapkan dapat dihasilkan suatu keluaran yang relevan dengan permintaan pengguna. Salah satu pendekatan dalam merepresentasikan informasi yang terorganisasi adalah dengan mengelompokkan dokumen ke dalam beberapa kategori atau klasifikasi. Dengan klasifikasi dokumen diharapkan informasi yang diambil dari kumpulan dokumen dapat lebih relevan (Pramurjadi 2010). Klasifikasi Klasifikasi yaitu proses untuk menemukan sekumpulan model atau fungsi yang mendeskripsikan dan membedakan kelas-kelas data dengan tujuan untuk memprediksikan kelas dari objek yang belum diketahui kelasnya (supervised learning) (Han & Kamber 2001). Proses klasifikasi dibagi menjadi dua fase, yaitu learning dan test (Han & Kamber 2001). Pada fase learning, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase test, model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi model tersebut. Jika akurasinya mencukupi, maka model tersebut dapat dipakai untuk prediksi kelas data yang belum diketahui. Naïve bayes Naïve Bayes merupakan metode klasifikasi dengan cara menghitung peluang sebuah dokumen d berada di kelas c (Manning, 2008). Kelas terbaik pada klasifikasi naïve bayes adalah kelas yang paling mirip dengan dokumen yang ingin diklasifikasikan atau yang mempunyai nilai posteriori tertinggi atau maximum a posteriori (MAP), dengan rumus: sedangkan merupakan nilai penduga peluang suatu dokumen d dikelaskan ke dalam kelas c, dengan rumus: (2) sedangkan adalah peluang prior dari dokumen yang ada di dalam kelas c yang didapat dari, sedangkan Nc merupakan banyak dokumen yang ada di dalam kelas c, N adalah total dokumen yang ada, dan adalah peluang bersyarat dari term muncul dalam sebuah dokumen pada kelas c. diartikan sebagai ukuran seberapa banyak term menyumbang untuk menunjukkan c merupakan kelas yang tepat untuk dokumen d. Nilai didapat dari: (3) sedangkan adalah jumlah kemunculan term t dalam dokumen latih di kelas c, termasuk kemunculan ganda term t pada dokumen. Nilai penjumlahan adalah jumlah seluruh term pada dokumen latih yang ada di kelas c, termasuk kemunculan term ganda, dan B adalah jumlah term dalam vocabulary seluruh dokumen. K-Tetangga Terdekat K-tetangga terdekat atau K-nearest neighbor (knn) merupakan metode klasifikasi yang memasukkan dokumen ke dalam mayoritas kelas dari k tetangga terdekatnya dimana k adalah sebuah parameter (Manning, 2008). Metode knn bekerja dengan berdasarkan pada jarak terdekat antara dokumen d dengan dokumen lainnya untuk menentukan tetangga terdekatnya. Setelah itu diambil mayoritas kelas dokumen yang merupakan tetangga terdekat untuk menentukan kelas dokumen d. Pembobotan juga bisa dilakukan pada knn dari kesamaan cosine. Skor kelas dihitung sebagai berikut: 2
12 dimana adalah sekumpulan dari k tertangga terdekat dari dokumen d dan bernilai 1 jika dan hanya jika dokumen d terdapat di kelas c dan bernilai 0 jika sebaliknya. adalah ukuran kesamaan cosine antara dokumen d dengan d. Dokumen akan dimasukkan ke kelas yang mempunyai skor tertinggi. Adaptive Classifier Combination Adaptive classifier combination (ACC) adalah metode klasifikasi yang menggabungkan metode naïve bayes dengan k-tetangga terdekat. ACC memasukkan dokumen d ke dalam kelas c i, dimana kelas yang akan dimasukkan diidentifikasikan oleh classifier dengan local accuracy tertinggi dari semua kelas yang ada (Y. H. Li & A.K. Jain, 1998). Untuk sebuah dokumen uji d yang akan diklasifikasikan, cari tetangga dari dokumen uji d menggunakan metode k-nearest neighbor. Kemudian hasil klasifikasi untuk dokumen d oleh n classifier ditunjukkan sebagai. Setelah itu, untuk setiap kelas dihitung: (4) dimana merupakan peluang x i terdapat pada kelas c j dan W i merupakan ukuran kesamaan kosinus antara x i dan d. Kemudian dokumen d dimasukkan ke kelas c k, dengan rumus: Confusion Matrix (5) Confusion matrix merupakan sebuah tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi, yang digunakan untuk menentukan kinerja suatu model klasifikasi (Tan et al 2005). Tabel 1 Confusion Matrix Actual Class Predicted Class Class = 1 Class = 0 Class = 1 F11 F10 Class = 0 F01 F00 Contoh tabel confusion matrix dapat dilihat pada Tabel 1. Perhitungan akurasi dengan menggunakan tabel confusion matrix adalah: Akurasi = METODE PENELITIAN Penelitian ini dilaksanakan dalam beberapa tahap yang diilustrasikan pada Gambar 1. Secara garis besar tahapannya adalah pengumpulan data, praproses, implementasi sistem, klasifikasi ACC dan evaluasi klasifikasi. Karakteristik Dokumen Koleksi dokumen yang digunakan sebagai data latih dan dokumen uji adalah hasil penelitian dari Jurnal Penelitian Hortikultura tahun 2002 sampai dengan tahun 2009 dengan format XML. Dokumen pada data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem. Dokumen yang dijadikan data latih sebanyak 300 dokumen dan 40 dokumen sebagai dokumen uji. Dokumen tersebut akan dibagi menjadi lima kelas yaitu fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5). Klasifikasi ACC Mulai Pengumpulan Data Implementasi Sistem Confusion Matrix Selesai Gambar 1 Metode Penelitian Klasifikasi Naïve Bayes 3
13 Training Dokumen pada data training atau data latih diklasifikasikan langsung secara manual sebagai pembelajaran sistem untuk mengetahui dokumen yang belum diketahui kelasnya pada data uji. Data latih sebanyak 300 dokumen tersebut dibagi menjadi lima kelas, kelas (1) yaitu fisiologi dan agronomi terdapat 87 dokumen, kelas (2) yaitu pemuliaan dan teknologi benih terdapat 73 dokumen, kelas (3) yaitu proteksi terdapat 97 dokumen, kelas (4) yaitu pascapanen dan pascaproduksi terdapat 34 dokumen, dan kelas (5) yaitu agroekonomi terdapat 9 dokumen. Dokumen yang telah diklasifikasikan secara manual tersebut disimpan dalam format.txt dengan struktur [nama file dokumen][,] [kelasnya]. Testing Data testing atau data uji dimasukkan oleh user dengan meng-upload file XML yang ada di koleksi ke dalam sistem. Kemudian dokumen uji yang di-upload diambil term-term penciri dokumen dan dihitung tf.idf-nya. Setelah itu dilakukan perhitungan menggunakan metode ACC untuk mengetahui kelas dokumen uji. Pengindeksan Tahap pengindeksan dilakukan untuk menghasilkan term-term yang akan digunakan sebagai penciri dokumen dan dilakukan pembobotan tf.idf dengan menggunakan (1) akan diperoleh bobot tiap term. Hasil dari tahap pengindeksan akan disimpan dalam file teks tersendiri untuk mempercepat sistem saat melakukan pemrosesan koleksi dokumen. Klasifikasi Naive Bayes Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen testing terdapat di suatu kelas dengan menggunakan (3). Setelah itu dilakukan perhitungan peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi. Tahap pertama pada Naive Bayes adalah menghitung peluang term pada dokumen uji terdapat di suatu kelas dengan menggunakan (3). Contoh dokumen latih adalah dokumen jurnalhorti1.txt dengan term pengaruh, macam, dosis, pupuk, organik, hasil, kentang, dataran, dium, lahan, sawah, subhan, deden, fatchullah. Term-term tersebut dihitung peluang terdapat di suatu kelas menggunakan (3) dengan membandingkan dengan term-term pada data latih. Setelah perhitungan (3), dilakukan perhitungan Naive Bayes yaitu dengan menghitung peluang dokumen latih berada di suatu kelas tertentu kemudian diambil nilai yang tertinggi berdasarkan rumus. Klasifikasi ACC Proses pengklasifikasian dokumen pada penelitian ini menggunakan algoritme klasifikasi ACC yang merupakan gabungan dari algoritme klasifikasi KNN dengan Naïve Bayes. Tahap ini diawali dengan penghitungan panjang vektor semua dokumen pada korpus. Setelah itu dilakukan perhitungan perkalian vektor atau dot product antara dokumen testing dengan data latih kemudian dihitung kesamaannya dengan ukuran kesamaan cosine dan diambil K hasil tertinggi sebagai K tetangga terdekat. Selanjutnya dilakukan proses perhitungan dengan algoritme Naive Bayes dengan data latih sebesar K. Uji coba dilakukan dengan menggunakan beberapa nilai k pada algoritme knn. Nilai k yang digunakan adalah 2, 3, 4, 5, 6, 7, 9, 10, 11, 12, 13, 14, dan 15. Nilai k yang paling optimal adalah yang menghasilkan error atau salah kelas paling sedikit. Dengan kata lain, k yang paling optimal adalah yang paling banyak menempatkan data test ke dalam kelas sesungguhnya. Evaluasi Klasifikasi Pada tahap evaluasi dilakukan penilaian kinerja sistem dengan melakukan pengukuran presentase ketepatan dalam klasifikasi dokumen menggunakan confusion matrix. Lingkungan Pengembangan Sistem Spesifikasi beberapa perangkat lunak dan perangkat keras yang digunakan dalam penelitian ini adalah sebagai berikut : 4
14 1. Perangkat Lunak : Sistem operasi Microsoft Windows Vista Notepad++ 2. Perangkat Keras : Intel Pentium Ghz Memory 1536 MB RAM Monitor resolusi 1024 x 768 pixel Mouse dan keyboard HASIL DAN PEMBAHASAN Klasifikasi Naive Bayes Hasil klasifikasi Naive Bayes dengan dokumen tes jurnalhorti1.txt yang didapat dari menghitung peluang dokumen jurnalhorti1.txt terdapat di kelas fisiologi dan agronomi (1), pemuliaan dan teknologi benih (2), proteksi (3), pascapanen dan pascaproduksi (4), dan agroekonomi (5) adalah , , , , Dengan demikian jurnalhorti.txt dengan menggunakan metode Naive Bayes akan dimasukkan ke dalam kelas fisiologi dan agronomi karena mempunyai nilai tertinggi yaitu sebesar ~ Klasifikasi ACC Hasil klasifikasi ACC sangat bergantung pada knn yang mana dipengaruhi oleh nilai k. Untuk mengetahui nilai k yang optimal, yaitu nilai k yang mempunyai akurasi tertinggi, dilakukan uji coba nilai k. Berikut adalah hasil uji coba nilai k. Tabel 2 Tabel nilai k Nilai k Jumlah dokumen dengan kelas yang tepat Dari Tabel 2 dapat dilihat bahwa nilai k=11 merupakan yang paling optimal karena jumlah dokumen yang dikelaskan di kelas yang tepat mempunyai jumlah paling tinggi, yaitu sebanyak 32 dokumen, dibandingkan dengan nilai k yang lain. Akurasi tidak bergantung pada banyaknya nilai k, hal ini dapat dilihat bahwa akurasi dengan nilai k=2 lebih baik daripada nilai k=3. Pada Gambar 6 dapat dilihat bahwa nilai k=3 menghasilkan tingkat akurasi paling rendah diantara nilai k yang lain. Nilai k yang paling optimal adalah k=11 dengan akurasi sebesar 80%. Artinya bahwa dalam penelitian ini dokumen uji paling banyak dikelaskan secara tepat sesuai dengan kelas sebenarnya dengan tingkat keakuratan 80% pada k=11. Maka, untuk menghitung tingkat akurasi sebagai evaluasi klasifikasi, akan digunakan k=11 Evaluasi Klasifikasi Evaluasi yang dilakukan pada tahapan ini yaitu dengan membandingkan berapa dokumen yang dikelaskan dengan benar dengan kelas yang sebenarnya. Hasil dari evaluasi klasifikasi ACC dapat dilihat pada Tabel 3. Gambar 2 Tingkat Akurasi dengan berbagai nilai k 5
15 Tabel 3 Confusion matrix klasifikasi ACC Kelas Prediksi Kelas Aktual Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, dengan metode ACC terdapat 8 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pemuliaan dan teknoligi benih (2), tidak ada (0) dokumen yang dikelaskan ke dalam kelas proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi ACC adalah 80%. Hasil evaluasi klasifikasi menggunakan metode naïve bayes dapat dilihat pada Tabel 4. Tabel 4 Confusion matrix klasifikasi naïve bayes Kelas Aktual Kelas Prediksi Dokumen uji yang seharusnya dikelaskan ke kelas fisiologi dan agronomi (1) berjumlah 8 dokumen, namun dengan metode Naive Bayes terdapat 3 dokumen dikelaskan tepat ke dalam kelas fisiologi dan agronomi (1), terdapat 4 dokumen yang salah prediksi ke dalam kelas pemuliaan dan teknologi benih (2), terdapat 1 dokumen yang salah prediksi ke dalam kelas - proteksi (3), tidak ada (0) dokumen yang dikelaskan ke dalam kelas pascapanen dan pascaproduksi (4), dan tidak ada (0) dokumen yang dikelaskan ke dalam kelas agroekonomi (5). Setelah itu dihitung jumlah semua dokumen yang kelas prediksi sama dengan kelas sebenarnya lalu dibagi dengan jumlah seluruh dokumen uji. Maka akurasi klasifikasi naïve bayes adalah 42.5%. Dari kedua hasil diatas dapat diartikan ketika dilakukan klasifikasi dokumen dengan menggunakan metode ACC peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 80%. Dengan menggunakan metode naïve bayes peluang dokumen diklasifikasikan sesuai dengan kelas sebenarnya adalah 42.5%. KESIMPULAN DAN SARAN Kesimpulan Dari 40 dokumen hortikultura yang didapat dari laboratorium Temu Kembali Informasi diklasifikasikan menggunakan metode ACC dengan data latih berjumlah 300 menghasilkan akurasi sebesar 80%. Dengan menggunakan metode Naive Bayes dengan jumlah data latih dan dokumen uji yang sama menghasilkan akurasi sebesar 42.5%. Dari percobaan dapat dilihat klasifikasi ACC menghasilkan prediksi kelas yang jauh lebih akurat dibandingkan dengan klasifikasi Naive Bayes. Dari hasil percobaan dapat dilihat bahwa klasifikasi dokumen menggunakan metode ACC dapat meningkatkan keakuratan hasil klasifikasi. Saran Pada penelitian ini dokumen yang dipakai adalah dokumen dengan satu topik yang sama yaitu hortikultura yang kemudian dikelaskan lagi ke dalam sub-sub kelas. Untuk pengembangan selanjutnya dapat dicoba menggunakan korpus yang berisi dokumendokumen dengan topik yang berbeda dan kelas yang lebih umum untuk dapat melihat kinerja klasifikasi menggunakan ACC dan dibandingkan dengan metode klasifikasi lainnya. 6
16 Pada penelitian ini setelah dokumen test diketahui prediksi kelasnya tidak dimasukkan lagi ke dalam sistem untuk dijadikan data latih yang baru. Untuk pengembangan selanjutnya dokumen uji yang telah diketahui kelasnya dapat dimasukkan sebagai data latih yang baru agar sistem menjadi lebih akurat. DAFTAR PUSTAKA Arifin AZ, Ari NS Klasifikasi Dokumen Berita Kejadian Berbahasa Indonesia dengan Algoritme Single Pass Clustering. Surabaya. Jurusan Teknik Informatika Institut Teknologi Sepuluh Nopember. Han J, Kamber M Data Mining: Concept and Techniques. USA: Morgan Kaufmann Publishers. Juniawan I Klasifikasi Dokumen Teks Berbahasa Indonesia Menggunakan Minor Component Analysis (MCA). [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor. Li YH, AK Jain Classification of Text Document. Department of Computer Science and Engineering, Michigan State University. Michigan. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. New York : Cambridge University Press. Pramurjadi A Klasifikasi Dokumen Menggunakan Background Smoothing. [Skripsi]. Bogor. Departemen Ilmu Komputer Institut Pertanian Bogor. Ramadan R Penerapan Pohon Untuk Klasifikasi Dokumen Teks Berbahasa Inggris. Bandung. Program Studi Teknik Informatika Institut Teknologi Bandung. 7
17 LAMPIRAN 8
18 Lampiran 1a Antarmuka sistem ACC. Lampiran 1b Antarmuka pemilihan dokumen. Lampiran 1c Antarmuka hasil klasifikasi. 9
HASIL DAN PEMBAHASAN. Praproses
5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk
Lebih terperinciPENDAHULUAN. Latar belakang
Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium
Lebih terperinciHASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.
yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciHASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:
2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciUKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN
BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam
Lebih terperinciPENDAHULUAN TINJAUAN PUSTAKA
Latar Belakang PENDAHULUAN Indonesia merupakan negara tropis yang memiliki + 30.000 spesies tumbuh-tumbuhan ([Depkes] 2007). Tumbuh-tumbuhan tersebut banyak yang dibudidayakan sebagai tanaman hias. Seiring
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #8 Text Classification (Manning, Ch.13, p.288/253) Ad Hoc Retrieval vs Standing Query User mencari informasi dengan memberikan satu atau lebih query terhadap koleksi
Lebih terperinciBAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
Lebih terperinciROCCHIO CLASSIFICATION
DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa
Lebih terperinciINFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER
INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,
Lebih terperinciKLASIFIKASI PADA TEXT MINING
Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision
Lebih terperinciBAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
Lebih terperincibeberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciKATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP
KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI
Lebih terperinciSistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)
Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF) 1 Dhony Syafe i Harjanto, 2 Sukmawati Nur Endah, dan 2 Nurdin Bahtiar 1 Jurusan Matematika,
Lebih terperinciJurnal Politeknik Caltex Riau
1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani
Lebih terperinciMEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING
KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN
Lebih terperinciPenerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia
Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas
Lebih terperinciBernadus Very Christioko Fakultas Teknologi Informasi dan Komunikasi, Universitas Semarang. Abstract
IMPLEMENTASI SISTEM TEMU KEMBALI INFORMASI Studi Kasus: Dokumen Teks Berbahasa Indonesia (IMPLEMENTATION OF INFORMATION RETRIEVAL SYSTEM Case Study: Text Document in Indonesian Language) Bernadus Very
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciKLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI
KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 KLASIFIKASI DOKUMEN MENGGUNAKAN
Lebih terperinciPERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL
PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciAPLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL
APLIKASI MESIN PENCARI DOKUMEN CROSS LANGUAGE BAHASA INGGRIS BAHASA INDONESIA MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Jurusan
Lebih terperinciPEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI. Oleh : SEPTIAN BAGUS WAHYONO NPM :
PEMANFAATAN TEKNIK STEMMING UNTUK APLIKASI TEXT PROCESSING BAHASA INDONESIA SKRIPSI Oleh : SEPTIAN BAGUS WAHYONO NPM : 0734010126 PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS
Lebih terperinciPENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)
PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciKLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)
Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciImplementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita
Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana,
Lebih terperinciOleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak
TEKNIK DATA MINING MENGGUNAKAN METODE BAYES CLASSIFIER UNTUK OPTIMALISASI PENCARIAN PADA APLIKASI PERPUSTAKAAN (STUDI KASUS : PERPUSTAKAAN UNIVERSITAS PASUNDAN BANDUNG) Oleh : Selvia Lorena Br Ginting,
Lebih terperinciInera Firdestawati¹, Yanuar Firdaus A.w.², Kiki Maulana³. ¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom
IMPLEMENTASI MODEL RUANG VEKTOR SEBAGAI PENERJEMAH QUERY PADA CROSS-LANGUAGE INFORMATION RETRIEVAL SISTEM IMPLEMENTATION OF VECTOR SPACE MODEL AS QUERY TRANSLATION FOR CROSS-LANGUAGE INFORMATION RETRIEVAL
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciGambar 1.1 Proses Text Mining [7]
1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinciPREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G
PREDIKSI STATUS KEAKTIFAN STUDI MAHASISWA DENGAN ALGORITMA C5.0 DAN K-NEAREST NEIGHBOR IIN ERNAWATI G651044054 SEKOLAH PASCA SARJANA INSTITUT PERTANIAN BOGOR BOGOR 2008 PERNYATAAN MENGENAI TESIS DAN SUMBER
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciBAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
Lebih terperinciKlasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor
Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour Information Retrieval Document Classified with K-Nearest Neighbor Endah Purwanti 1 Fakultas Sains dan Teknologi Universitas Airlangga
Lebih terperinciKlasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra
Jurnal Ilmiah Ilmu Komputer, Vol 15 No. 2, Desember 2010 : 38-41 Klasifikasi Citra Menggunakan Metode Minor Component Analysis pada Sistem Temu Kembali Citra Vera Yunita, Yeni Herdiyeni Departemen Ilmu
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin
Lebih terperinciBAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama
Lebih terperinciPEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI
PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN 1.1. Rancangan Penelitian Rancangan penelitian adalah rencana dan struktur penyelidikan yang disusun sedemikian rupa sehingga penelitian akan memperoleh jawaban untuk pertanyaan-pertanyaan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciJurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017
TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas
Lebih terperinciINTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS
i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA
Lebih terperinciSKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika. Disusun Oleh: AISHA ALFIANI MAHARDHIKA
SISTEM KLASIFIKASI FEEDBACK PELANGGAN DAN REKOMENDASI SOLUSI ATAS KELUHAN DI UPT PUSKOM UNS DENGAN ALGORITMA NAÏVE BAYES CLASSIFIER DAN COSINE SIMILARITY SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat
Lebih terperinciUKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5
PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,
Lebih terperinciIMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA
IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM34 Temu Kembali Informasi KULIAH #7 Text Classifiation Ad Ho Retrieval User menari informasi dengan memberikan satu atau lebih query terhadap koleksi terkini. : menari multiore omputer hips terbaru.
Lebih terperinciAbidah Elcholiqi, Beta Noranita, Indra Waspada
Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #3 Inverted Index Inverted index construction Kumpulan dokumen Token Modifikasi token Tokenizer Linguistic modules perkebunan, pertanian, dan kehutanan perkebunan pertanian
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciSTUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari
BAB I PENDAHULUAN 1.1 Latar Belakang Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari internet ataupun milik pribadi juga semakin berkembang. Permasalahan utama adalah bagaimana memperoleh
Lebih terperinci3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen
3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian
Lebih terperinciMETODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA
METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi
Lebih terperinciBAB 1 PENDAHULUAN UKDW
BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini sudah banyak sistem klasifikasi yang diciptakan dalam rangka membantu pengguna dalam melakukan pengklasifikasian dokumen, baik dokumen yang berbentuk
Lebih terperinciPengujian Kerelevanan Sistem Temu Kembali Informasi
Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem
Lebih terperinciImplementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen
Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi
Lebih terperinciCROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU
CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR
Lebih terperinciPENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR
PENCARIAN DOKUMEN MENGGUNAKAN METODE SINGLE PASS CLUSTERING (STUDI KASUS : ABSTRAKSI TA TEKNIK INFORMATIKA UNIV. MUHAMMADIYAH MALANG) TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga
1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciHASIL DAN PEMBAHASAN. diformulasikan digunakan dalam proses temu kembali selanjutnya.
beberapa kata. Menurut Baeza-Yates dan Ribeiro-Neto (1999), tidak semua kata dapat digunakan untuk merepresentasikan sebuah dokumen secara signifikan Pemrosesan teks yang dilakukan dalam penelitian ini
Lebih terperinciUKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review
Lebih terperinciIMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR
IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS
Lebih terperinciPENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK
PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Program Studi Informatika
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem
Lebih terperinciBAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang
BAB I PENDAHULUAN 1.1.Latar Belakang Masalah Tugas Akhir (TA) atau Skripsi merupakan suatu karya tulis ilmiah, berupa paparan tulisan hasil penelitian yang membahas suatu masalah dalam bidang ilmu tertentu
Lebih terperinciTUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA
TUNING PARAMETER DALAM FUNGSI OKAPI BM25 PADA MESIN PENCARI TEKS BAHASA INDONESIA TEDY SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013
Lebih terperinciKLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR
KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciEFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA
EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik
Lebih terperinciBAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Di era globalisasi seperti sekarang ini, perkembangan teknologi komputer berpengaruh besar pada tingkat kebutuhan manusia di berbagai bidang seperti bidang
Lebih terperinciKLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO
F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan
Lebih terperinciKlasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciStudi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine
Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,
Lebih terperinciAnalisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi
Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak
Lebih terperinciKONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431
KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :
Lebih terperinciMENENTUKAN NILAI TES ESAI ONLINE MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN PEMBOBOTAN TERM FREQUENCY/ INVERSE DOCUMENT FREQUENCY
MENENTUKAN NILAI TES ESAI ONLINE MENGGUNAKAN ALGORITMA LATENT SEMANTIC ANALYSIS (LSA) DENGAN PEMBOBOTAN TERM FREQUENCY/ INVERSE DOCUMENT FREQUENCY SKRIPSI FAKHREZA AKBAR 071401014 PROGRAM STUDI S1 ILMU
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinci