MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING

Ukuran: px
Mulai penontonan dengan halaman:

Download "MEN BAHASA INDONESIA MENGGUNAKAN SE EMANTIC SMOOTHING"

Transkripsi

1 KLASIFIKASII DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMA ATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIANN BOGOR BOGOR 2012

2 KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN SEMANTIC SMOOTHING DENGAN EKSTRAKSI CIRI CHI-SQUARE NOFEL SAPUTRA Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

3 ABSTRACT NOFEL SAPUTRA. Indonesian Document Classification Using Semantic Smoothing with Chi-square Term Extraction. Supervised by JULIO ADISANTOSO. One of supervised learning methods for document classification is Naive Bayes classifier. A common problem that often occurs on simple method like naive bayes is data sparsity. This problem especially occurs when the size of training and testing data is too small. Smoothing technique is a method for handling the sparsity problem; one method of smoothing technique is semantic smoothing. This research is intended to implement chi-square term extraction on document classification using semantic smoothing and to compare the classification accuracy rate with previous research. Chisquare term extraction was used to make the classifier work efficiently and to increase classification accuracy. Agriculture Research Journal Document of holticulture domain are used for this research, consisting of three classes. The average for accuracy of document classification on semantic smoothing with chi-square term extraction is 96%. The results of the classification using semantic smoothing with chi-square Term extraction have been able to classify Agriculture Research Journal Documents in the holticultural domain. Keyword: background smoothing, classification, naive bayes, semantic smooothing

4 Penguji: 1. Ahmad Ridha, S.Kom, MS 2. Sony Hartono Wijaya, S.Kom, M.Kom

5 Judul Skripsi : Klasifikasi Dokumen Bahasa Indonesia Menggunakan Semantic Smoothing dengan Ekstraksi Ciri Chi-square Nama : Nofel Saputra NRP : G Menyetujui: Pembimbing Ir. Julio Adisantoso, M.Kom NIP Mengetahui: Ketua Departemen Ilmu Komputer Dr. Ir. Agus Buono, M.Si, M.Kom NIP Tanggal Lulus :

6 KATA PENGANTAR Segala puji bagi Allah subhanahu wata ala atas segala limpahan rahmat serta karunia-nya sehingga penulis mampu menyelesaikan penelitian ini dengan baik. Shalawat dan salam penulis sampaikan kepada Nabi Muhammad shallallahu alaihi wasallam serta kepada keluarganya, sahabatnya, serta para pengikutnya yang selalu berpegang kepada Al-Quran dan As-Sunnah. Penulis juga menyampaikan terima kasih kepada seluruh pihak yang telah berperan dalam penelitian ini, yaitu: 1 Ayahanda Delnof Atri, Ibunda Ellynarti, Adik Gita Dwi Novelia, Farhan Noviandra serta Adelia Safira atas doa, kasih sayang, dukungan, serta motivasi kepada penulis untuk penyelesaian penelitian ini. 2 Bapak Ir. Julio Adisantoso, M.Kom selaku dosen pembimbing tugas akhir yang telah memberi banyak ide, saran, bantuan, serta dukungan sampai selesainya penelitian ini. Bapak Sony Hartono Wijaya, S.Kom, M.Kom selaku dosen pembimbing akademik. 3 Rekan-rekan seperjuangan di Ilmu Komputer IPB angkatan 45 atas segala kebersamaan, bantuan, dukungan, serta kenangan bagi penulis selama menjalani masa studi. Semoga kita bisa berjumpa kembali kelak sebagai orang-orang sukses. 4 Anisa Nur Rahma, Roni Rahmon, Stefanus Eko Susanto, Muhammad Abrar Istiadi dan sahabat lainnya yang telah menjadi mitra dan menemani penulis dalam menjalani kehidupan sebagai mahasiswa. 5 Rekan-rekan satu bimbingan, Susi Handayani, Anita, Putri Dewi P, Fania Rahmania, Meri Marlina, Alfa Nugraha P, Rizky Utama, Meriska Defriani, dan Hafizhia Dhikrul A, telah bersama berjuang dalam mengerjakan tugas akhir mengenai Temu Kembali Informasi. 6 Seluruh staf Departemen Ilmu Komputer IPB yang telah banyak membantu baik selama penelitian maupun perkuliahan. Penulis berharap penelitian ini dapat memberikan manfaat baik sekarang maupun di masa mendatang. Bogor, September 2012 Nofel Saputra

7 RIWAYAT HIDUP Penulis dilahirkan di Jakarta Pusat, DKI Jakarta pada tanggal 4 Juli Penulis merupakan anak pertama dari pasangan Delnof Atri dan Ellynarti. Pada tahun 2008, penulis menamatkan pendidikan di SMA Negeri 35 Jakarta. Penulis lulus seleksi masuk Institut Pertanian Bogor (IPB) pada tahun yang sama melalui jalur Undangan Seleksi Masuk IPB dan diterima sebagai mahasiswa di Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam. Selama aktif menjadi mahasiswa, penulis menjadi salah satu pengurus Himpunan Mahasiswa Ilmu Komputer (Himalkom) pada tahun Penulis juga menjadi pengajar tutorial pada Mata Kuliah Kalkulus Lanjut (2010) dan Teori Bahasa dan Otomata (2011). Selain itu, penulis melaksanakan kegiatan Praktik Kerja Lapangan di Kantor Kementerian Lingkungan Hidup Jakarta pada tahun 2011.

8 DAFTAR ISI Halaman DAFTAR TABEL... vi DAFTAR GAMBAR... vi DAFTAR LAMPIRAN... vi PENDAHULUAN... 1 Latar Belakang... 1 Tujuan... 1 Ruang Lingkup... 1 METODE PENELITIAN... 1 Dokumen Penelitian... 1 I Praproses... 2 II Ekstraksi Topic Signature... 3 III Smoothing... 3 IV Dokumen Uji... 4 V Evaluasi... 4 Implementasi... 4 HASIL DAN PEMBAHASAN... 4 Tahap I Praproses... 4 Uji Coba Klasifikasi Dokumen... 5 Hasil Semantic Smoothing... 5 KESIMPULAN DAN SARAN... 8 Kesimpulan... 8 Saran... 8 DAFTAR PUSTAKA... 8 LAMPIRAN v

9 DAFTAR TABEL Halaman 1 Kontingensi antara kata terhadap kelas Nilai kritis untuk taraf nyata α Confusion matrix (Hammel 2008) Confusion matrix semantic smoothing Kinerja semantic smoothing Confusion matrix SS tanpa dan SS dengan (short document) Perbandingan hasil SS tanpa dan SS dengan (short document) Confusion matrix SS tanpa dan SS dengan (long document) Perbandingan hasil SS tanpa dan SS dengan (long document)... 8 DAFTAR GAMBAR Halaman 1 Gambaran umum sistem Tingkat kinerja semantic smoothing pada long document dan short document Tingkat kinerja SS tanpa dan SS dengan (short document)... 7 DAFTAR LAMPIRAN Halaman 1 Hasil klasifikasi dokumen uji pada short document Hasil klasifikasi dokumen uji pada long document vi

10 1 PENDAHULUAN Latar Belakang Ilmu pengetahuan dan teknologi dari tahun ke tahun terus berkembang, dimana setiap orang membutuhkan informasi dan berita up to date. Informasi tersebut dapat dikelompokkan atau diklasifikasikan agar terstruktur dan lebih mudah untuk diakses kembali. Salah satu metode yang digunakan untuk mengklasifikasikan informasi adalah Text Classification (Klasifikasi Teks). Klasifikasi dokumen merupakan proses menggolongkan suatu dokumen ke dalam suatu kategori tertentu (Manning et al 2008). Metode klasifikasi dokumen kini telah banyak diketahui diantaranya Naïve Bayes, k- Nearest Neighbor, Support Vector Machines dan Decision Tree. Salah satu metode klasifikasi yang paling mudah diimplementasikan adalah Naïve Bayes Classifier (NBC). Masalah umum yang sering terjadi pada metode NBC adalah adanya sparsity data terutama bila ukuran data latih (training) yang digunakan terlalu kecil. Hal ini biasanya terjadi ketika ada kata-kata atau terms pada dokumen uji yang tidak muncul pada dokumen latih sehingga diperlukan metode smoothing (Ramadhina 2011). Sebelumnya metode background smoothing telah dilakukan oleh Pramurjadi (2010) dengan akurasi 88.15%. Hasil klasifikasi dengan background smoothing kurang memuaskan karena metode ini tidak memperhatikan keterkaitan kata yang ada di dalam dokumen. Selanjutnya klasifikasi dokumen tersebut diperbaiki oleh Ramadhina (2011) dengan semantic smoothing yang memiliki tingkat akurasi lebih tinggi yaitu 90.22%. Dalam jangka panjang, dokumen penelitian yang akan terindeks semakin bertambah seiring berjalannya waktu. Kerja yang lebih berat harus dilakukan oleh sistem classifier jika hanya mengandalkan teknik klasifikasi dokumen. Oleh karena itu, salah satu cara untuk meningkatkan kinerja dari sistem klasifikasi adalah dengan menerapkan teknik pemilihan fitur dokumen. Teknik pemilihan fitur memiliki dua tujuan, yaitu mengurangi jumlah kata yang digunakan dan meningkatkan akurasi klasifikasi (Manning et al. 2008). Chi-square merupakan teknik pemilihan fitur dokumen yang sangat efektif untuk memilih kata penciri suatu dokumen namun tidak menurunkan akurasi sistem klasifikasi (Herawan 2011). Pramurjadi (2010) dan Ramadhina (2011) menggunakan pembobotan TF.IDF untuk semua kata kecuali stopwords. Pada penelitian ini akan dikembangkan metode semantic smoothing dengan menggunakan ekstraksi ciri (kata) chi-square. Diharapkan penelitian klasifikasi menggunakan semantic smoothing dengan ekstraksi ciri (kata) chisquare dapat lebih meningkatkan tingkat akurasi dan membantu dalam mengelompokkan dokumen bahasa Indonesia. Tujuan Tujuan penelitian ini adalah: 1 Mengimplementasikan ekstraksi ciri chisquare pada klasifikasi dokumen menggunakan semantic smoothing. 2 Membandingkan tingkat akurasi klasifikasi dengan penelitian Ramadhina (2011). Ruang Lingkup Ruang lingkup penelitian ini adalah dokumen berbahasa Indonesia di bidang pertanian. METODE PENELITIAN Alur penelitian secara garis besar ditunjukkan pada Gambar 1. Tahapan sistem terdiri atas pengumpulan dokumen, praproses dengan ekstraksi ciri (kata) chi-square, ekstraksi topic signature, semantic smoothing, dan evaluasi hasil klasifikasi. Metode background smoothing telah dilakukan oleh Pramurjadi (2010) dan selanjutnya background smoothing dikombinasikan dengan semantic smoothing menggunakan pembobotan TF.IDF telah dilakukan oleh Ramadhina (2011). Penelitian ini menggunakan semantic smoothing dengan ekstraksi ciri (kata) chi-square. Dokumen Penelitian Dokumen penelitian yang digunakan adalah hasil penelitian dari Jurnal Penelitian Holtikultura tahun 2002 sampai dengan tahun Adapun pembagian jenis tanaman holtikultura yaitu komoditas buah tropik, buah subtropik, tanaman hias, dan sayuran. Dokumen tersebut terbagi menjadi tiga bidang penelitian yaitu ekofisiologi-agronomi, pemuliaan-teknologi benih, dan proteksi.

11 2 Dokumen Latih II. Praproses Ekstraksi Topic Signature Indexing I. III. V. Dokumen Uji IV. Background Smoothing Semantic smoothing Evaluasi Gambar 1 Gambaran umum sistem. Pengujian pada dokumen uji terbagi dua jenis yaitu short document dan long document. Short document merupakan dokumen yang memiliki jumlah kata di bawah 35 kata, sedangkan long document merupakan dokumen yang berisi lebih atau sama dengan 35 kata. Pembagian dokumen tersebut berdasarkan penelitian sebelumnya oleh Ramadhina Sehingga dapat membandingkan tingkat akurasi klasifikasi dengan penelitian Ramadhina(2011). I. Praproses Tahap pertama yang dilakukan dalam praproses adalah pengelompokan dokumen sesuai dengan kelas atau kategori yang ditentukan. Tahap kedua adalah proses indexing yang bertujuan mengekstrak kata dalam dokumen. Pada proses indexing terdapat parsing yaitu memilah dokumen menjadi satuan unit yang kecil berupa kata, dan membuang kata yang sering muncul dan bukan merupakan penciri suatu dokumen yang biasa disebut stopwords. Pada tahapan berikutnya dilakukan ekstraksi ciri (kata) dengan chi-square untuk mendapatkan daftar tokenisasi. Chi-square ( ) merupakan pengujian hipotesis mengenai perbandingan antara frekuensi sampel yang benar-benar terjadi (kemudian disebut frekuensi observasi) dan frekuensi harapan yang didasarkan atas hipotesis tertentu pada setiap kasus atau data (selanjutnya disebut dengan frekuensi harapan. Sampel berukuran N diambil dari suatu populasi normal dengan standar deviasi σ. Untuk setiap sampel dihitung nilai, sehingga diperoleh sebaran sampling untuk yang disebut sebaran chi-square. Sebaran chi-square tergantung pada satu parameter, yaitu derajat bebas (d.f) (Herawan 2011). Pengaruh antara frekuensi sampel dan frekuensi harapan dapat diuji menggunakan suatu hipotesis H 0. Hipotesis nol adalah hipotesis yang menyatakan tidak adanya perbedaan yang signifikan antara frekuensi observasi dan frekuensi harapan. Pengujian hipotesis dilakukan pada taraf nyata tertentu. Taraf nyata yang dimaksud adalah peluang salah menolak hipotesis yang seharusnya benar (Spiegel 2004). Perhitungan nilai chisquare yang digunakan untuk melakukan pengujian perbedaan antara pola frekuensi observasi ( ), dengan frekuensi harapan( ) ditunjukkan pada Persamaan 1. 1 Berdasarkan nilai chi-square tersebut dapat diambil suatu keputusan statistik apakah terjadi perbedaan antara pola frekuensi observasi dengan frekuensi harapan. Hipotesis nol (H 0 ) diterima jika nilai perhitungan < nilai kritis pada derajat bebas dan taraf nyata tertentu. Hipotesis nol (H 0 ) ditolak jika nilai perhitungan > nilai kritis pada derajat bebas dan taraf nyata tertentu. Perhitungan nilai chi-square pada setiap kata t yang muncul pada setiap kelas c dapat dibantu dengan menggunakan tabel kontingensi. Nilai yang terdapat pada tabel kontingensi merupakan nilai frekuensi observasi dari suatu kata terhadap kelas. Tabel 1 menunjukkan tabel kontingensi antara kata terhadap kelas.

12 3 Tabel 1 Tabel kontingensi antara kata terhadap kelas Kata Kelas Kelas = 1 Kelas = 0 Kata = 1 A B Kata = 0 C D Perhitungan nilai chi-square berdasarkan tabel kontingensi tersebut disederhanakan menjadi: (2) N merupakan jumlah dokumen latih, A merupakan banyaknya dokumen kelas c yang memuat kata t, B merupakan banyaknya dokumen yang tidak berada di c, namun memuat kata t, C merupakan banyaknya dokumen yang berada di kelas c, namun tidak memiliki kata t di dalamnya, serta D merupakan banyaknya dokumen yang bukan merupakan dokumen kelas c dan tidak memuat kata t. Hipotesis pada penelitian ini antara lain: H 0 : kata t sebagai penciri kelas c. H 1 : kata t bukan penciri kelas c. Pengambilan keputusan dilakukan berdasarkan nilai dari masing-masing kata. Kata yang memiliki nilai di atas nilai kritis pada taraf nyata α adalah kata yang akan dipilih sebagai penciri dokumen. Kata yang dipilih sebagai penciri merupakan kata yang memiliki pengaruh terhadap kelas c. Nilai kritis untuk taraf nyata α ditunjukkan oleh Tabel 2. Tabel 2 Nilai kritis untuk taraf nyata α pada derajat bebas = 1 α Nilai Kritis II Ekstraksi Topic Signature Ekstraksi topic signature membantu proses pencarian kedekatan semantik berdasarkan frasa itu sendiri dan set dari kata yang mengandung frasa tersebut. Proses pertama yang dilakukan adalah membuat deretan pasangan kata sesuai dengan keterkaitan kata yang ada. Setiap kata yang didapatkan pada proses chi-square dijadikan topic signature yang berisi deretan pasangan kata. Penelitian ini berfokus pada pasangan kata yang terdiri atas dua kata. Langkah untuk membuat topic signature adalah: 1 Pasangan kata dicari dengan mendapatkan kata unik terlebih dahulu, kata unik yang berarti tidak ada stopword dan tidak ada kata yang sama atau berulang. 2 Semua kata pada dokumen dilakukan segmentasi dua kata yang bertetangga. Contoh: masalah utama budidaya cabai Dari hasil segmentasi kalimat tersebut didapatkan deretan pasangan kata yang terdiri atas: masalah utama, utama budidaya dan budidaya cabai. Terlihat bahwa terdapat 3 pasangan kata sebagai topic signature. Pasangan kata atau topic signature ini mempengaruhi klasifikasi semantic smoothing karena pasangan kata dokumen yang akan diuji akan mendapatkan nilai peluang yang bergantung pada pasangan kata dari topic signature. III Smoothing Metode semantic smoothing dilakukan untuk memudahkan proses klasifikasi dokumen. Semantic smoothing digunakan sebagai parameter kontrol untuk menjadikan hasil klasifikasi menjadi akurat. Proses awal yang dilakukan adalah menghitung peluang berdasarkan kata yang terdapat pada dokumen uji. Proses yang telah dilakukan oleh Pramurjadi (2010) menggunakan formula 3. b j 1 ml (3) dengan model kelas unigram dengan pendugaan parameter maximum likelihood adalah ml, sedangkan b j merupakan model kelas unigram dengan background smoothing dan merupakan peluang kata yang ada pada dokumen. Koefisien λ digunakan sebagai parameter pengontrol dari collection background model. Dalam semantic smoothing, digunakan

13 4 sebagai komponen pengontrol pada pemetaan topic signature sebagai model campuran atau mixture model (Zhou et al. 2007). Proses berikutnya juga telah dilakukan oleh Ramadhina (2011) menggunakan semantic smoothing dengan menambah perhitungan probability dan perhitungan tiap kata yang ada di korpus semantik menggunakan formula 4. Ps(t ci)=(1-λ)pb(t ci)+λ P(t wk)p(wk ci) (4) dengan s j adalah model kelas unigram dengan semantic smoothing dan wk merupakan topic signature, k merupakan peluang kata dalam dokumen uji yang terdapat dalam topic signature, sedangkan b j merupakan nilai hasil dari formula background smoothing, dan k k adalah kata dalam kumpulan topic signature dalam dokumen latih. IV Dokumen Uji Setelah didapatkan peluang tiap kata dari dokumen uji berdasarkan topic signature dan kelas pada dokumen latih, proses dilanjutkan dengan menghitung peluang tiap kelas terhadap dokumen uji. Dokumen uji yang digunakan berupa short document dan long document. V Evaluasi Evaluasi hasil dari klasifikasi dokumen dilakukan untuk mengetahui tingkat keakurasian klasifikasi semantic smoothing dengan ekstraksi ciri chi-square. Evaluasi dilakukan pada hasil kelas untuk data uji yang terbagi menjadi short document dan long document. Selanjutnya, hasil klasifikasi dokumen antara semantic smoothing tanpa chi-square dan semantic smoothing dengan chi-square dibandingkan. Tabel 3 merupakan sebuah confusion matrix, yakni tabel yang terdiri atas banyaknya baris data uji yang diprediksi benar dan tidak benar oleh model klasifikasi yang digunakan untuk menentukan kinerja suatu model klasifikasi. Perbandingan hasil kedua metode tersebut dengan melakukan pengukuran kesamaan menggunakan recall, precision, F-1, tabel confusion matrix dan tingkat akurasi. Recall = TP / (TP + FN) Precision = TP / (TP + FP) Tabel 3. Confusion matrix (Hammel 2008) Predicted Class True False True True Positive (TP) False Negative (FN) Observed False False Positive (FP) True Negative (TN) Recall merupakan evaluasi untuk mengetahui tingkat keberhasilan kinerja user dalam observasi yang telah dilakukan. Recall dinyatakan dalam jumlah pengenalan entitas bernilai benar dibagi jumlah entitas yang dikenali sistem. Precision adalah tingkat ketepatan hasil klasifikasi dan jumlah keseluruhan pengenalan yang dilakukan sistem. 2 1 Akurasi F-measure (F1) adalah nilai yang lebih dipengaruhi kinerja sistem dibandingkan dengan user. Akurasi dari klasifikasi dapat diperoleh dari penjumlahan true positif dan true negatif dibagi total untuk melihat kinerja secara keseluruhan. Implementasi Lingkungan implementasi yang digunakan adalah sebagai berikut: Perangkat Lunak Perangkat lunak yang digunakan antara lain: 1 Sistem operasi Windows 7 Professional; 2 Microsoft Excel untuk mengolah data; 3 PHP sebagai bahasa pemrograman. Perangkat keras: 1 Prosesor Intel Core i GHz 2 RAM 2.00 GB 3 Harddisk 500GB HASIL DAN PEMBAHASAN Tahap I Praproses Dokumen yang digunakan terdiri atas 83 dokumen untuk masing-masing kelas yaitu:

14 5 1 Kelas Ekofisiologi dan Agronomi; 2 Kelas Pemuliaan dan Teknologi Benih; 3 Kelas Proteksi (Hama dan Penyakit). Keseluruhan dokumen kelas yang berjumlah 249 terbagi menjadi 174 dokumen latih dan 75 dokumen uji. Dokumen yang akan diuji terbagi dalam dua jenis, yaitu long document dan short document. Dalam praproses dilakukan penentuan kata stopwords yang disesuaikan dengan kebutuhan penelitian. Selanjutnya dilakukan proses pemilihan fitur menggunakan chi-square. Setelah didapatkan hasil pemilihan fitur, dilakukan. pembobotan TF IDF pada setiap term. Katakata yang terpilih oleh chi-square akan menjadi penciri suatu kelas. Taraf nyata α (kesalahan jenis 1) merupakan kesalahan yang dibuat pada waktu menguji hipotesis, menolak H 0 padahal H 0 benar. Taraf nyata yang digunakan pada penelitian ini adalah 0.05 agar peluang kesalahan sebesar 5%. Bila dibandingkan dengan taraf nyata 0.01, dari segi jumlah kata lebih sedikit dan waktu proses lebih cepat daripada taraf nyata Namun dari segi kinerja taraf nyata 0.05 lebih baik daripada taraf nyata Pemilihan kata dilakukan pada taraf nyata 0.05 (Tabel 1). Berdasarkan teori terpenuhinya hipotesis, taraf nyata 0.05 dapat diartikan bahwa kriteria kata yang dipilih adalah kata yang memiliki nilai di atas Hasil dari tahapan ini pada dokumen latih adalah: 1 Kelas Ekofisiologi dan Agronomi terdapat 178 kata unik 2 Kelas Pemuliaan dan Teknologi Benih terdapat 198 kata unik 3 Kelas Proteksi (Hama dan Penyakit) 148 kata unik. Kata organik, dracaena merupakan salah satu contoh kata yang hanya terdapat pada kelas ekofisiologi. Kata diaklimatisasi merupakan salah satu contoh kata yang hanya terdapat pada kelas pemuliaan. Sedangkan kata entomopatogen merupakan salah satu contoh kata yang hanya terdapat pada kelas proteksi. Ada beberapa kata yang sama, seperti kata dilakukan terdapat pada kelas ekofisiologi dan pemuliaan, namun pada kelas proteksi tidak ada. Kata hama terdapat pada kelas pemuliaan dan proteksi, namun pada kelas ekofisiologi tidak ada. Tiap kata unik yang didapatkan pada hasil chi-square dibuat menjadi pasangan kata untuk daftar topic signature. Misal contoh kata yang didapatkan pada kelas ekofisiologi seperti meningkatkan, organik dan perlakuan. Kata tersebut masing-masing dipasangkan menjadi list pasangan kata yaitu meningkatkan organik, meningkatkan perlakuan, organik meningkatkan, organik perlakuan, perlakuan meningkatkan, dan perlakuan organik. Setelah dilakukan proses ekstraksi topic signature, didapatkan 1 Kelas Ekofisiologi dan Agronomi terdapat pasangan kata. 2 Kelas Pemuliaan dan Teknologi Benih terdapat pasangan kata 3 Kelas Proteksi (Hama dan Penyakit) pasangan kata. Total jumlah pasangan kata yang menjadi topic signature adalah pasangan kata. Uji Coba Klasifikasi Dokumen Uji coba dilakukan pada dokumen uji yang terdiri atas long document dan short document. Parameter pengontrol yang terdapat pada formula semantic smoothing yaitu λ= 0.1 sampai dengan 0.9 digunakan untuk mengatur komposisi antara semantic smoothing dan background smoothing seperti yang terdapat pada formula (2) dan (3). Semakin besar nilai parameter pengontrol menjadikan nilai peluang yang dihasilkan juga meningkat. Hasil Semantic smoothing Hasil klasifikasi semantic smoothing (SS) untuk kelas Ekofisiologi dan Agronomi (a), kelas Pemuliaan dan Teknologi Benih (b), serta kelas Proteksi Hama dan Penyakit (c) berupa confusion matrix. Tabel 4 merupakan hasil klasifikasi pada short document dan long document. Hasil dokumen uji short document yang benar masuk dalam kelas a, b, dan c adalah 69 dan untuk jumlah dokumen yang salah berjumlah 6, sedangkan pada long document yang benar masuk dalam kelas a, b, dan c adalah 72 untuk jumlah dokumen yang salah berjumlah 3. Dokumen yang salah masuk ke dalam kelas pada short document karena sedikitnya pasangan kata pada dokumen uji yang sama dengan topic signature dan ada tidak cocok dengan kelasnya yang menyebabkan salah pengklasifikasian.

15 6 Pada long document, pasangan kata banyak yang sama dengan topic signature namun dokumen uji yang salah masuk ke dalam kelasnya karena nilai peluang yang dihasilkan pada kelasnya lebih kecil dari nilai peluang di luar kelasnya. Nilai peluang yang kecil bisa mengakibatkan kurang maksimalnya pengklasifikasian. Tabel 4 Confusion matrix semantic smoothing Short Document TRUE FALSE TRUE 69 6 FALSE Long Document TRUE FALSE TRUE 72 3 TRUE Confusion matrix ini didapatkan dari hasil pengujian tiap kelas yang terdapat pada Lampiran 1 dan Lampiran 2. Terlihat bahwa hasil klasifikasi pada long document lebih besar dibandingkan dengan hasil short document. Tabel 5 Kinerja semantic smoothing Short Document Rec Prec F-1 Akurasi SS (%) Long Document Rec Prec F-1 Akurasi SS (%) Recall dan precision yang dihasilkan long document adalah 96% sedangkan pada short document sebesar 92%. Hal ini menunjukkan bahwa ketepatan dan pengenalan hasil klasifikasi sistem long document lebih baik daripada short document. F-1 yang dihasilkan long document adalah 96% lebih tinggi daripada short document hanya 92%. Hal ini menunjukkan kinerja sistem klasifikasi terhadap long document lebih baik daripada short document. Akurasi yang didapatkan untuk dokumen uji short document adalah 94% dan dokumen uji long document adalah 97%. Pada penelitian ini didapatkan hasil short document lebih rendah, karena sedikitnya pasangan kata yang sama dengan topic signature. Terlihat bahwa hasil klasifikasi pada long document lebih baik dibandingkan dengan short document, karena long document memiliki banyaknya pasangan kata yang sama dengan topic signature. Rata-rata akurasi kinerja semantic smoothing dengan ekstraksi ciri chi-square adalah 94% dengan adanya pengukuran pada long document dan short document Gambar 2 Tingkat kinerja semantic smoothing Tingkat Kinerja (%) Short Document Long Document pada long document dan short document recall Akurasi precison f 1 SS tanpa Chi square SS dengan Chi square akurasi Gambar 3 Tingkat kinerja SS tanpa dan SS dengan (short document).

16 7 Tabel 6 Confusion matrix SS tanpa dan SS dengan (short document) SS tanpa Chi-square TRUE FALSE TRUE FALSE SS dengan Chi-square TRUE FALSE TRUE 69 6 FALSE Tabel 7 Perbandingan hasil SS tanpa dan SS dengan (short document) SS tanpa Chi-square SS dengan Chi-square Recall 85.33% 92,00% Precison 85.33% 92,00% F % 92,00% Akurasi 90.22% 94,67% Perbandingan hasil klasifikasi semantic smoothing tanpa dan semantic smoothing dengan dilihat pada Tabel 7 yaitu pengukuran hasil tingkat kinerja kedua metode tersebut untuk short document. Hasil klasifikasi pada short document menggunakan metode semantic smoothing dengan chisquare lebih baik. Terjadi peningkatan akurasi antara hasil semantic smoothing tanpa chisquare dan metode semantic smoothing dengan chi-square. Tabel 8 merupakan perbandingan confusion matrix dari semantic smoothing tanpa chi-square dan semantic smoothing dengan chi-square pada long document. Hasil klasifikasi semantic smoothing tanpa chisquare adalah 70 dokumen uji yang sesuai dengan kelas, sedangkan hasil klasifikasi dari semantic smoothing dengan chi-square menghasilkan 72 dokumen uji yang sesuai dengan kelas. Tabel 8 Confusion matrix SS tanpa dan SS dengan (long document) Semantic tanpa Chi-square TRUE FALSE TRUE 70 5 FALSE Semantic dengan Chi-square TRUE FALSE TRUE 72 3 FALSE Terlihat bahwa recall dan precision short document yang dihasilkan semantic smoothing dengan chi-square adalah 92% sedangkan pada semantic smoothing tanpa chi-square sebesar 85,33%. Hal ini menunjukkan bahwa ketepatan dan pengenalan hasil klasifikasi sistem semantic smoothing dengan chi-square lebih baik daripada semantic smoothing tanpa chi-square. F-1 short document yang dihasilkan semantic smoothing dengan chi-square adalah 92% lebih tinggi daripada semantic smoothing tanpa chi-square yang hanya sebesar 85.33%. Hal ini menunjukkan kinerja sistem klasifikasi terhadap semantic smoothing dengan chisquare lebih baik daripada semantic smoothing tanpa chi-square. Perhitungan confusion matrix tersebut menghasilkan pengukuran kinerja yang diberikan pada Tabel 9. Tingkat akurasi pada semantic smoothing dengan chi-square lebih tinggi dengan nilai 97.33% dibandingkan dengan tingkat akurasi semantic smoothing tanpa chi-square yaitu 95.55%. Terlihat bahwa recall dan precision long document yang dihasilkan semantic smoothing dengan chi-square adalah 96% sedangkan pada semantic smoothing tanpa chi-square sebesar 93.33%. Tabel 9. Perbandingan hasil SS tanpa dan SS dengan (long document) SS tanpa Chi-square SS dengan Chi-square Recall 93.33% 96.00% Precison 93.33% 96.00% F % 96.00% Akurasi 95.55% 97.33%

17 8 F-1 long document yang dihasilkan semantic smoothing dengan chi-square adalah 96% lebih tinggi daripada semantic smoothing tanpa chi-square hanya 93.33%. Hal ini menunjukkan kinerja sistem klasifikasi terhadap semantic smoothing dengan chisquare lebih baik daripada semantic smoothing tanpa chi-square. Seperti yang terlihat pada Tabel 7 dan Tabel 9, hasil klasifikasi semantic smoothing dengan chi-square lebih baik dibandingkan dengan hasil klasifikasi semantic smoothing tanpa chi-square. Hal ini membuktikan bahwa ekstraksi ciri chi-square dan keterkaitan kata yang ada pada dokumen dapat mempengaruhi klasifikasi dokumen. Pertimbangan semantic smoothing dalam klasifikasi salah satunya adalah keterkaitan kata dan pemilihan topic signature. Pemilihan topic signature berasal dari ekstraksi ciri (kata) chi-quare sehingga setiap kelas memiliki kata sebagai penciri masing-masing kelas. Hal ini membuat akurasi semantic smoothing dengan chi-square menjadi lebih baik dibandingkan dengan semantic smoothing tanpa chi-square. Sistem klasifikasi ini bergantung pada dokumen yang digunakan sehingga sistem ini hanya untuk dokumen pertanian KESIMPULAN DAN SARAN Kesimpulan Semantic smoothing merupakan teknik smoothing yang mengandalkan topic signature dan keterkaitan kata. Selain itu juga ekstraksi ciri chi-square menambah keakurasian semantic smoothing dalam pengklasifikasian dokumen. Hasil yang didapatkan dari penelitian ini adalah tingkat akurasi semantic smoothing cukup tinggi. Hal ini juga dipengaruhi oleh dokumen pertanian yang masing-masing dokumen memiliki kata yang relatif sama. Akurasi yang didapatkan metode semantic smoothing dengan chi-square lebih tinggi dibandingkan dengan hasil yang didapatkan semantic smoothing tanpa chisquare. Kinerja metode semantic smoothing dengan chi-square menghasilkan akurasi lebih tinggi pada long document yaitu 97.33% dibandingkan dengan short document dengan nilai akurasi 94.67% karena banyaknya kata yang terdapat pada dokumen uji cukup mempengaruhi nilai peluang yang akan digunakan untuk klasifikasi. Semantic smoothing dengan ekstraksi ciri chi-square menghasilkan akurasi dengan rata-rata 96%. Hasil klasifikasi semantic smoothing dipengaruhi oleh keterkaitan kata atau pasangan kata yang ada pada dokumen latih dan dokumen uji serta pemilihan kata pada proses chi-square. Saran Perlu dilakukan penelitian untuk menentukan topic signature yang lebih baik yaitu dengan mengambil tiga pasangan kata atau lebih serta dapat dilakukan analisis lebih dalam untuk topic signature dan pengetahuan mengenai semantik. Klasifikasi selanjutnya dapat menggunakan penggabungan metode semantic smoothing dengan metode klasifikasi lainnya agar mendapatkan akurasi yang lebih baik. DAFTAR PUSTAKA Hammel L Model Assessment with ROC Curves. The Encyclopedia of Data Warehousing and Mining. Ed ke-2. Idea Group Publisher. Herawan Y Pengembangan Indexing spatio-temporal pada database spatiotemporal dengan konsep event-based spatiotemporal data model [skripsi]. Bogor: Departemen Ilmu Komputer Institut Pertanian Bogor. Manning CD, Raghavan P, Schutze H Introduction to Information Retrieval. Cambridge: Cambridge University Press. Pramurjadi A Klasifikasi dokumen menggunakan background smoothing [skripsi]. Bogor: Departemen Ilmu Komputer, Institut Pertanian Bogor. Ramadhina A Klasifikasi dokumen bahasa Indonesia menggunakan semantic smoothing [skripsi]. Bogor: Departemen Ilmu Komputer Institut Pertanian Bogor. Zhou X, Zhang X, Hu X Semantic smoothing for Bayesian Text Classification with Small Training Data. Di dalam: SIAM SDM 08. Proc of the 2008, SIAM International Conference on Data Mining; Georgia, Atlanta, Apr 2008.

18 LAMPIRAN

19 10 Lampiran 1 Hasil klasifikasi dokumen uji pada short document Class a b c Fisiologi dan agronomi a Pemuliaan dan tek. benih b Proteksi c Fisiologi & Agronomi a b+c a 23 1 b+c 2 49 Recall a = 92,00% Prec a = 95,83% F-1 a = 93,88% Akurasi a= 96,00% Pemuliaan & Tek. Benih b a+c b 22 1 a+c 3 49 Recall b = 88,00% Prec b = 95,65% F-1 b = 89,71% Akurasi b= 94,67% Proteksi (Hama & Penyakit c a+b c 24 4 a+b 1 46 Recall c = 96,00% Prec c = 85,71% F-1 c = 90,56% Akurasi c= 93,33%

20 11 Lampiran 2 Hasil klasifikasi dokumen uji pada long document Class a b c Fisiologi dan agronomi a Pemuliaan dan tek. benih b Proteksi c Fisiologi & Agronomi a b+c a 25 3 b+c 0 47 Recall a = 100% Prec a = 89,29% F-1 a = 94,34% Akurasi a= 96,00% Pemuliaan & Tek. Benih b a+c b 22 0 a+c 3 50 Recall b = 88,00% Prec b = 100% F-1 b = 93,62% Akurasi b= 96,00% Proteksi (Hama & Penyakit c a+b c 25 0 a+b 0 50 Recall c = 100% Prec c = 100% F-1 c = 100% Akurasi c= 100%

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix.

HASIL DAN PEMBAHASAN. menggunakan formula (4) dan (5) untuk setiap kelasnya berdasarkan tabel confusion matrix. yang tidak berarti sebagai pembeda antar dokumen. c. Pembobotan indeks yaitu pembobotan secara lokal dan global. Pembobotan lokal dilakukan dengan cara menghitung frekuensi kemunculan kata dan total seluruh

Lebih terperinci

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI

KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI KLASIFIKASI DOKUMEN MENGGUNAKAN BACKGROUND SMOOTHING ANDY PRAMURJADI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2010 KLASIFIKASI DOKUMEN MENGGUNAKAN

Lebih terperinci

PENDAHULUAN. Latar belakang

PENDAHULUAN. Latar belakang Latar belakang PENDAHULUAN Indonesia merupakan negara megabiodiversity yang memiliki kekayaan tumbuhan obat. Indonesia memiliki lebih dari 38.000 spesies tanaman (Bappenas 2003). Sampai tahun 2001 Laboratorium

Lebih terperinci

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA

KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA KLASIFIKASI DOKUMEN BAHASA INDONESIA MENGGUNAKAN ADAPTIVE CLASSIFIER COMBINATION (ACC) MUTHIA AZIZA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA

METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA METODE PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA YANG TERKELOMPOK PADA MESIN PENCARI FITRIA RAHMADINA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH

TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH TEMPORAL QUESTION ANSWERING SYSTEM BAHASA INDONESIA ADI DARLIANSYAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 TEMPORAL QUESTION ANSWERING

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI

PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI PEMBENTUKAN PASSAGE DALAM QUESTION ANSWERING SYSTEM UNTUK DOKUMEN BAHASA INDONESIA SYAHRUL FATHI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012

Lebih terperinci

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU

CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU CROSS LANGUAGE QUESTION ANSWERING SYSTEM MENGGUNAKAN PEMBOBOTAN HEURISTIC DAN RULE BASED SELAMET SUBU DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB

PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB PENGEMBANGAN WORDNET BAHASA INDONESIA BERBASIS WEB RIYAN ADI LESMANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2012 PENGEMBANGAN WORDNET BAHASA

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431

KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KONTRAK PERKULIAHAN TEMU KEMBALI INFORMASI KOM431 KOORDINATOR MATA AJARAN TEMU KEMBALI INFORMASI DEPARTEMEN ILMU KOMPUTER INSTITUT PERTANIAN BOGOR TAHUN 2011/2012 KONTRAK PERKULIAHAN Nama Matakuliah :

Lebih terperinci

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO Wandira Irene, Mukhlisulfatih Latief, Lillyan Hadjaratie Program Studi S1 Sistem Informasi / Teknik Informatika

Lebih terperinci

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI

EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI EKSPANSI KUERI MENGGUNAKAN KAMUS KEDOKTERAN PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA ENENG MARYANI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI

KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE SUPPORT VECTOR MACHINE DENGAN PEMILIHAN FITUR CHI-SQUARE ARINI DARIBTI PUTRI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB III METODOLOGI PENELITIAN. Dataset

BAB III METODOLOGI PENELITIAN. Dataset BAB III METODOLOGI PENELITIAN Metodologi penelitian diuraikan dalam skema tahap penelitian untuk memberikan petunjuk atau gambaran yang jelas, teratur, dan sistematis seperti yang ditunjukkan pada Gambar

Lebih terperinci

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing

BAB III LANDASAN TEORI. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing BAB III LANDASAN TEORI Permasalahan yang diselesaikan dalam tesis ini adalah deteksi emosi. Deteksi emosi termasuk salah satu persoalan utama dalam affective computing (Calvo & D'Mello, 2010). Bidang penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

HASIL DAN PEMBAHASAN. sim(, )=

HASIL DAN PEMBAHASAN. sim(, )= 4 untuk dianggap relevan dengan istilah-istilah kueri tertentu dibandingkan dokumendokumen yang lebih pendek. Sehinggavektor dokumen perlu dinormalisasi. Ukuran kesamaan antara kueri Q dan dokumen D i

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. BAB I PENDAHULUAN 1. 1.1. Latar Belakang Perkembangan infrastruktur dan penggunaan teknologi informasi memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah perolehan

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN PEMBOBOTAN FITUR KALIMAT YOZI SUKMATUL AHDA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015 PERNYATAAN

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

HASIL DAN PEMBAHASAN. Data

HASIL DAN PEMBAHASAN. Data Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian. Penentuan Data Latih dan Data Uji Dalam penelitian ini data terdapat dua metode

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI

PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI PENGUKURAN KEMIRIPAN CITRA BERBASIS WARNA, BENTUK, DAN TEKSTUR MENGGUNAKAN BAYESIAN NETWORK RIZKI PEBUARDI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE Castaka Agus Sugianto Program Studi Teknik lnformatika Politeknik TEDC Bandung

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Oleh: ARIF DARMAWAN NIM

Oleh: ARIF DARMAWAN NIM APLIKASI PENGKLASIFIKASIAN DOKUMEN INFO PADA TWITTER MENGGUNAKAN ALGORITMA NAIVE BAYES TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN Pada bab ini dijelaskan latar belakang dari penelitian klasifikasi dokumen teks. Tujuan dan ruang lingkup dari tugas akhir memberikan penjelasan mengenai hasil yang ingin diketahui dan

Lebih terperinci

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA Erik Hadi Saputra 1), Burhan Alfironi Muktamar 2) 1), 2) Teknik Informatika

Lebih terperinci

Jurnal Politeknik Caltex Riau

Jurnal Politeknik Caltex Riau 1 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id IMPLEMENTASI TEXT MINING DALAM KLASIFIKASI JUDUL BUKU PERPUSTAKAAN MENGGUNAKAN METODE NAIVE BAYES Siti Amelia Apriyanti 1), Kartina Diah Kesuma Wardhani

Lebih terperinci

Prosiding Statistika ISSN:

Prosiding Statistika ISSN: Prosiding Statistika ISSN: 2460-6456 Klasifikasi Text Mining untuk Terjemahan Ayat-Ayat Al-Qur an menggunakan Metode Klasifikasi Naive Bayes Text Mining Classification for Translation of Al-Qur'an Verses

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA

EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA EKSPANSI KUERI PADA SISTEM TEMU KEMBALI INFORMASI BERBAHASA INDONESIA MENGGUNAKAN ANALISIS KONTEKS LOKAL LARAS MUTIARA DIVA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes

Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode Naïve Bayes Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Penerapan Data Mining Classification Untuk Prediksi Perilaku Pola Pembelian Terhadap Waktu Transaksi Menggunakan Metode

Lebih terperinci

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH

SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH SPAM FILTER MENGGUNAKAN MODEL KLASIFIKASI MULTIVARIATE BERNOULLI DAN MULTINOMIAL NAIVE BAYES DENIS FADILLAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA

IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA IMPLEMENTASI SUPPORT VECTOR MACHINE (SVM) UNTUK KLASIFIKASI DOKUMEN DEALIS HENDRA PRATAMA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013 PERNYATAAN

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM  ABSTRAK J~ICON, Vol. 3 No. 2, Oktober 2015, pp. 106 ~ 112 106 PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM E-MAIL Tince Etlin Tallo 1, Bertha S. Djahi 2, Yulianto T. Polly 3 1,2,3 Jurusan Ilmu

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Selain sebagai media komunikasi, Twitter memberikan akses bagi pihak ketiga yang ingin mengembangkan aplikasi yang memanfaatkan layanannya melalui Twitter API. Salah

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL

KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL KLASIFIKASI TEKS MENGGUNAKAN ALGORITMA NAIVE BAYES UPDATEABLE PADA SOAL UJIAN SBMPTN HALAMAN JUDUL SKRIPSI Diajukan untuk memenuhi salah satu syarat mencapai gelar Strata Satu Program Studi Informatika

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR

IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR IMPLEMENTASI ALGORITMA RANDOM FORESTS UNTUK KLASIFIKASI SPAM PADA CITRA DAN TEXT INSTAGRAM TUGAS AKHIR RIZKY NOVRIYEDI PUTRA 1132001001 PROGRAM STUDI INFORMATIKA FAKULTAS TEKNIK DAN ILMU KOMPUTER UNIVERSITAS

Lebih terperinci

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK

PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK PENERAPAN METODE NAÏVE BAYES CLASSIFIER DAN ALGORITMA ADABOOST UNTUK PREDIKSI PENYAKIT GINJAL KRONIK SKRIPSI Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Program Studi Informatika

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR

KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR KLASIFIKASI TEKS SURAT KABAR DENGAN MENGGUNAKAN ALGORITMA N-GRAM STEMMERS TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: KHOZINATUL

Lebih terperinci

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR

UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR UJI DAN APLIKASI KOMPUTASI PARALEL PADA JARINGAN SYARAF PROBABILISTIK (PNN) UNTUK PROSES KLASIFIKASI MUTU BUAH TOMAT SEGAR oleh: MOH. KHAWARIZMIE ALIM F14101030 2006 FAKULTAS TEKNOLOGI PERTANIAN INSTITUT

Lebih terperinci

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA

PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA PEMODELAN JARINGAN SYARAF TIRUAN UNTUK PENGENALAN KATA PADA BERBAGAI KONDISI KESEHATAN PEMBICARA BAYU INDRAYANA DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN

Lebih terperinci

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK)

IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) IMPLEMENTASI METODE NAIVE BAYES CLASSIFICATION DALAM KLASIFIKASI KELAYAKAN CALON PENDONOR DARAH (STUDI KASUS PMI KAB. DEMAK) Diana Septiari Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas

Lebih terperinci

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala Metode Klasifikasi (SVM Light dan K-NNK NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech Jurusan Informatika FMIPA Universitas Syiah Kuala www.informatika.unsyiah.ac.id/tfa Alur dan Proses Cleaning Process Dokumen

Lebih terperinci

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5 Syam Gunawan 1, Pritasari Palupiningsih 2 1,2 Jurusan Sistem Informasi, STMIK Indonesia 1 syam@stmik-indonesia.ac.id,

Lebih terperinci

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5

PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 1 PENERAPAN DATA MINING UNTUK REKOMENDASI BEASISWA PADA SMA MUHAMMADIYAH GUBUG MENGGUNAKAN ALGORITMA C4.5 Dina Maurina, Ahmad Zainul Fanani S.Si, M.Kom Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen

Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Implementasi Rocchio s Classification dalam Mengkategorikan Renungan Harian Kristen Elisabeth Adelia Widjojo, Antonius Rachmat C, R. Gunawan Santosa Program Studi Teknik Informatika, Fakultas Teknologi

Lebih terperinci

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION Betrisandi betris.sin@gmail.com Universitas Ichsan Gorontalo Abstrak Pendapatan untuk perusahaan asuransi

Lebih terperinci

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j

HASIL DAN PEMBAHASAN. Tabel 1 Perhitungan recall-precision. ) adalah peluang kata i dalam dokumen setelah q j. p( i q j 3 p( i j ) adalah peluang kata i dalam dokumen setelah j diketahui (Adisantoso 1996). Hitung Relevansi Kata Pada tahap ini, dilakukan proses perhitungan setiap kata yang dinilai relevan dan tidak relevan

Lebih terperinci

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110 19 Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110 Fitri Handayani dan Feddy Setio Pribadi Jurusan

Lebih terperinci

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH

PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH PERINGKASAN DOKUMEN BAHASA INDONESIA MENGGUNAKAN METODE MAXIMUM MARGINAL RELEVANCE LUTFIA AFIFAH DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2015

Lebih terperinci

EKSTRAKSI LOKASI DAN PRODUK DARI DATA TRANSAKSI ONLINE PADA TWITTER

EKSTRAKSI LOKASI DAN PRODUK DARI DATA TRANSAKSI ONLINE PADA TWITTER EKSTRAKSI LOKASI DAN PRODUK DARI DATA TRANSAKSI ONLINE PADA TWITTER TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang LINDA NUR WULANSARI

Lebih terperinci

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI

PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI PEMILIHAN FITUR DOKUMEN BAHASA INDONESIA UNTUK PENGELOMPOKAN DENGAN METODE K-MEANS RAHMATIKA DEWI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2013

Lebih terperinci

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau

Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, Jurnal Politeknik Caltex Riau Jurnal Komputer Terapan Vol. 3, No. 2, November 2017, 233-240 233 Jurnal Politeknik Caltex Riau http://jurnal.pcr.ac.id Prediksi Ketepatan Waktu Lulus Mahasiswa dengan k- Nearest Neighbor dan Naïve Bayes

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO

PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO PERINGKASAN TEKS BAHASA INDONESIA DENGAN PEMILIHAN FITUR C4.5 DAN KLASIFIKASI NAIVE BAYES SEPTIANDI WIBOWO DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Penelitian terkait Penelitian ini sebelumnya dilakukan studi kepustakaan dari penelitian terdahulu sebagai dasar atau acuan untuk menyelesaikan tugas akhir. Dari studi kepustakaan

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Pertukaran informasi di zaman modern ini telah sampai pada era digital. Hal ini ditandai dengan semakin dibutuhkannya teknologi berupa komputer dan jaringan internet

Lebih terperinci

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA

MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA MAXIMUM MARGINAL RELEVANCE UNTUK PERINGKASAN TEKS OTOMATIS SINOPSIS BUKU BERBAHASA INDONESIA Aida Indriani ) ) Teknik Informatika STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos Sudarso 8, Tarakan 77 Email

Lebih terperinci

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL

TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL TUGAS AKHIR PERANCANGAN DAN IMPLEMENTASI SISTEM PENCARIAN BUKU RUANG BACA ILMU KOMPUTER UDAYANA BERBASIS WEB DENGAN METODE BM25 KOMPETENSI RPL MICHAEL SENNA SAPUTRA NIM. 1008605062 PROGRAM STUDI TEKNIK

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama pembuatan penelitian tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB Dika R. Yunianto dikarizky66@gmail.com Septyawan R. Wardhana rossywardhana@gmail.com Rizka W. Sholikah rizkaws@gmail.com

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci