KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

dokumen-dokumen yang mirip
PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

Metoda Naïve Bayes Classifier dan Penggunaannya pada Klasifikasi Dokumen

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

Bandung, Indonesia Bandung, Indonesia

ALGORITMA BAYESIAN CLASSIFICATION UNTUK MEMPREDIKSI HEREGRISTRASI MAHASISWA BARU DI STMIK WIDYA PRATAMA

METODE KLASIFIKASI DENGAN ALGORITMA NAÏVE BAYES UNTUK REKOMENDASI PENJURUSAN SMA TERANG BANGSA

Implementasi Pengembangan Smart Helpdesk di UPT TIK UNS Menggunakan Algoritma Naive Bayes Classifier

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

IMPLEMENTASI DATA MINING MENGGUNAKAN ALGORITMA NAÏVE BAYES DALAM MENENTUKAN PENGUNDURAN DIRI CALON MAHASISWA PADA UNIVERSITAS DIAN NUSWANTORO SEMARANG

BAB I PENDAHULUAN 1.1 Latar Belakang

Jurnal Politeknik Caltex Riau

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN CONTINOUS DENSITY HIDDEN MARKOV MODEL

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

BAB II KAJIAN PUSTAKA. pola seperti teknik statistic dan matematika (Larose, 2005).

Implementasi Algoritma Bayesian Classification Dalam Menentukan Kelayakan Ekowisata Mangrove

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM INFORMASI PENILAIAN SISWA UNTUK PENJURUSAN PADA SMA NEGERI 1 PLOSOKLATEN KEDIRI MENGGUNAKAN METODE NAIVE BAYES SKRIPSI

SKRIPSI TI S1 FIK UDINUS 1

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

BAB I PENDAHULUAN 1.1 Latar Belakang Masalah

PERANCANGAN CLIENT DENGAN PENGKLASIFIKASIAN MENGGUNAKAN ALGORITMA VECTOR SPACE MODEL SKRIPSI MOSES CHRISTIAN

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

BAB I PENDAHULUAN. 1.1 Latar Belakang

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Implementasi Algoritma Naive Bayesian Dalam Penentuan Penerima Program Bantuan Pemerintah

Kata kunci : metode pencarian, perpustakaan, Naïve Bayes Classifier.

ANALISIS PERFORMA ALGORITME WEIGHTED NAIVE BAYES CLASSIFIER. Abstrak

IMPLEMENTASI METODE BAYESIAN DALAM PENJURUSAN DI SMA BRUDERAN PURWOREJO STUDI KASUS: SMA BRUDERAN PURWOREJO

BAB I PENDAHULUAN. perkembangan teknologi informasi yang memungkinkan data dalam jumlah besar

PENERAPAN TEKNIK DATA MINING UNTUK MENENTUKAN HASIL SELEKSI MASUK SMAN 1 GIBEBER UNTUK SISWA BARU MENGGUNAKAN DECISION TREE

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

PENGGUNAAN METODE MULTINOMIAL NAÏVE BAYES PADA KLASIFIKASI SPAM ABSTRAK

BAB 2 LANDASAN TEORI

APLIKASI ALGORITMA CLASSIFY-BY-SEQUENCE UNTUK PENILAIAN KREDIT PADA BANK Y. Mohammad Iqbal 1. Abstrak

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN. ada tiga, yaitu association rules, classification dan clustering.

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENGAMBILAN MATA KULIAH PILIHAN MENGGUNAKAN METODE HYBRID

BAB III METODE PENELITIAN

1. Pendahuluan 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Klasifikasi Berita Lokal Radar Malang Menggunakan Metode Naïve Bayes Dengan Fitur N-Gram

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB 2 LANDASAN TEORI

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

IJCCS, Vol.x, No.x, Julyxxxx, pp. 1~5 ISSN:

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

Optimasi Teknik Klasifikasi Modified k Nearest Neighbor Menggunakan Algoritma Genetika

( ) ( ) (3) II-1 ( ) ( )

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK MEMPREDIKSI DATA ULANG PENSIUN

BAB I PENDAHULUAN. 1.1 Latar Belakang

Jurnal SCRIPT Vol. 3 No. 1 Desember 2015

BAB 1 PENDAHULUAN 1.1. Latar belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

PERBANDINGAN ALGORITMA APRIORI DAN ALGORITMA FP-GROWTH UNTUK PEREKOMENDASI PADA TRANSAKSI PEMINJAMAN BUKU DI PERPUSTAKAAN UNIVERSITAS DIAN NUSWANTORO

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

Penerapan Data Mining Untuk Menampilkan Informasi Pertumbuhan Berat Badan Ideal Balita dengan Menggunakan Metode Naive Bayes Classifier

PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

DETEKSI WEB BERKONTEN PORNO DENGAN METODE BAYESIAN FILTERING DAN PRINCIPAL COMPONENT ANALYSIS

Oleh : Selvia Lorena Br Ginting, Reggy Pasya Trinanda. Abstrak

Klasifikasi Posting Twitter Kemacetan Lalu Lintas Kota Bandung Menggunakan Naive Bayesian Classification

PENERAPAN DATA MINING DALAM MENENTUKAN JURUSAN SISWA

KLASIFIKASI TEKS MENGGUNAKAN CHI SQUARE FEATURE SELECTION UNTUK MENENTUKAN KOMIK BERDASARKAN PERIODE, MATERI DAN FISIKDENGAN ALGORITMA NAIVEBAYES

BAB I PENDAHULUAN. 1.1 Latar Belakang

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB I PENDAHULUAN Latar Belakang Masalah

BAB 1 PENDAHULUAN 1-1

BAB 3 LANDASAN TEORI

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

SISTEM KLASIFIKASI REPORTING BERITA MENGGUNAKAN METODE NAIVE BAYES (Studi Kasus Situs Resmi Pemerintahan) KOMPETENSI RPL SKRIPSI

BAB I PENDAHULUAN. 1.1 Latar Belakang

PLUG-IN CLASSIFIER DENGAN BAYESIAN STATISTICS UNTUK MENDETEKSI SITUS WEB PALSU

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

SIMULASI DAN ANALISIS KLASIFIKASI GENRE MUSIK BERBASIS FFT DAN SIMULATION AND ANALYSIS OF MUSIC GENRE CLASSIFICATION BASED ON FFT AND

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

Implementasi dan Analisa Granular Support Vector Machine with Data Cleaning (GSVM-DC) untuk Spam Filtering

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

BAB I PENDAHULUAN 1.1 Latar Belakang

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

DATA MINING POTENSI AKADEMIK SISWA BERBASIS ONLINE

Transkripsi:

Lukman Syafie / JUPITER Volume XV No.2 (2016) 109 KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK Lukman Syafie Staf Pengajar Teknik Informatika, Fakultas Ilmu Komputer Universitas Muslim Indonesia Makassar e-mail: lukmansyafie@gmail.com Abstrak Penelitian ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian Network, (2) merancang simulasi klasifikasi yang mampu mengklasifikasi dokumen repository secara otomatis berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk klasifikasi dokumen repository. Metode penelitian yang digunakan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Hasil kajian diharapkan bermanfaat dalam membantu mengklasifikasikan suatu dokumen secara otomatis, serta menjadi dasar pembuatan sistem klasifikasi yang lebih kompleks. Kata Kunci: Bayes Network, Klasifikasi, Dokumen, Algoritma Abstract This study aims to (1) develop the classification of the Algorithm Bayesian Network; (2) design the simulation classification which will be capable of classifying the document repository automatically based on the existing algorithm classification; (3) analyze the simulation result of the performance of the Algorithm Bayesian Network to classification document repository. The method used in the research was the quantitative experimental method. The study results are expected to be useful in helping to classify a document automatically, as well as a base for a more complex classification system. Keywords: Bayes Network, Document Classification, Algorithm. 1. Pengantar Perkembangan teknologi informasi yang sangat pesat memungkinkan tersedianya informasi di internet yang dapat diperoleh dengan cepat. Internet menjadi media utama dalam penyebaran dan perolehan kembali informasi. Keberadaan informasi yang sangat luas di internet diharapkan dapat diantisipasi dengan penyaringan data secara otomatis yang dapat membantu proses pencarian informasi secara cepat. Oleh karena itu, diperlukan pemahaman tentang perangkat dan metodologi untuk mencari data kemudian mengambil intisarinya untuk tujuan tertentu. Untuk memudahkan proses pengambilan informasi dari sekumpulan data diperlukan adanya proses ekstraksi informasi. Ekstraksi informasi adalah proses mendapatkan faktafakta terstruktur dari sekumpulan data yang tersedia. Tantangan utama yang dihadapi adalah bagaimana melakukan ekstraksi data secara otomatis. Pada ekstraksi data secara otomatis ada beberapa hal yang harus kita sadari, yaitu bahwa proses ini harus dapat dilakukan tanpa ada pengawasan dari manusia [8]. Salah satu tahap yang sangat penting dalam proses ekstraksi informasi adalah fungsi klasifikasi. Klasifikasi yang dimaksud di sini adalah bagian teknik dari Web Mining yaitu Web Content Mining yang berfokus pada analisa konten informasi teks yang tersimpan pada dokumen web yaitu dengan menggunakan machine learning [1] [5]. Beberapa metode telah dilakukan untuk klasifikasi. Lee telah mengajukan teknik klasifikasi berdasarkan isi teks yang terdapat pada website menggunakan metode Artificial Neural Networks (ANN) [3]. Pop mengajukan teknik klasifikasi menggunakan

Lukman Syafie / JUPITER Volume XV No.2 (2016) 110 Naive Bayesian F [6], sedang Urvoy menggunakan metode analisis kesamaan bentuk HTML [12]. Metode klasifikasi yang lain yaitu menggunakan algoritma CART [10]. Dalam proses klasifikasi, jika suatu data pengujian tidak ada dalam data pelatihan, maka data pengujian tersebut menjadi sulit untuk diklasifikasikan [9]. Atas dasar itu, digunakan teknik penambahan nilai peluang dari kata-kata pada website pengujian yang tidak terdapat pada data pelatihan [11]. 2. Kajian Literatur dan Pengembangan Hipotesis Teorema Bayes yang juga dikenal sebagai aturan Bayes adalah alat yang berguna untuk menghitung peluang bersyarat (conditional probability). Peluang bersyarat dari A saat B dilambangkan dengan P(A B) [4]. Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditentukan sebelumnya [5]. Bayesian Network merupakan metode yang dapat digunakan untuk melakukan klasifikasi berdasarkan konten dari dokumen. Bayesian Network bekerja dengan cara menghitung probabilitas dari suatu dokumen berdasarkan kontennya [6]. Proses klasifikasi dilakukan dengan menghitung nilai peluang menggunakan persamaan: (1) dengan merupakan nilai peluang kategori c i jika diketahui dokumen wj, merupakan nilai peluang dari kemunculan dokumen w j jika diketahui dokumen tersebut berkategori c i, adalah nilai peluang kemunculan kategori c i, dan adalah nilai peluang kemunculan dokumen w j. Dokumen terdiri dari kumpulan katakata yang menyusun dokumen tersebut sehingga perhitungan peluang dapat dianggap sebagai hasil perkalian dari peluang kemunculan kata-kata pada dokumen wj [6][7][9]: (2) dan diperoleh dari perhitungan: (3) dengan adalah fungsi yang mengembalikan nilai kemunculan kata pada kategori, adalah fungsi yang mengembalikan jumlah keseluruhan kata pada kategori, dan merupakan banyaknya kata yang unik. Dari persamaan (1) dan persamaan (2) diperoleh: dimana (4) merupakan suatu nilai konstan dalam setiap perhitungan sehingga persamaan (3) dapat dinyatakan dalam bentuk persamaan: (5) Dari proses klasifikasi ini, dokumen dikategorikan sebagai dokumen Sains (S) jika: (6) dan sebaliknya termasuk Non-Sains (H) jika (7) Berdasarkan persamaan (3) dan sifatsifat yang dimiliki oleh operator perkalian pada bilangan pecahan, maka akan diperoleh nilai peluang kemunculan kata yang sangat kecil dan cenderung menuju nol. Hal ini mengakibatkan rumusan umum klasifikasi yang ditunjukkan dalam persamaan (5) akan gagal mengklasifikasi dokumen yang diberikan. Oleh karena itu dilakukan modifikasi persamaan dengan bentuk

Lukman Syafie / JUPITER Volume XV No.2 (2016) 111 logaritma natural, sehingga persamaan klasifikasi yang baru dinyatakan dalam bentuk: atau atau (8) (9) (10) Dengan demikian diperoleh rumus klasifikasi yang baru: (11) Dari persamaan ini, dokumen dikategorikan sebagai dokumen Sains (S) jika: (12) dan sebaliknya termasuk Non-Sains (H) jika: 3. Metode Penelitian (13) Secara umum desain penelitian yang dilakukan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Data yang digunakan dalam penelitian ini adalah data primer, yaitu sekumpulan dokumen Repository yang akan diklasifikasikan berdasarkan konten atau isi teks. Lokasi penelitian adalah Perpustakaan Utsman bin Affan, Universitas Muslim Indonesia yang terletak di Jl. Urip Sumoharjo Km. 5 Makassar. Variabel atau peubah yang diamati dan diukur dalam penulisan ini adalah: Dokumen repository yang dilambangkan dengan atribut w j, yang mewakili dokumen ke-j. Kata-kata dalam dokumen dilambangkan dengan k p, yang mewakili kata ke-p. Kategori dari dokumen yang dilambangkan dengan c i, yaitu kategori ke-i. 4. Hasil dan Pembahasan Berdasarkan rumusan klasifikasi yang telah disusun, dibuat suatu algoritma klasifikasi Bayesian Network sebagai berikut: Sub Algoritma Bayes 1. Hitung jumlah kata: 2. Hitung jumlah frekuensi kata pada kategori S: 3. Hitung jumlah frekuensi kata pada kategori H: 4. Untuk setiap pada kategori S, hitung 5. Untuk setiap pada kategori H, hitung Sub Algoritma L1 1. Untuk data pelatihan (level 1): i. Hitung frekuensi dan pada database level 1. Simpan ke ii. Hitung prior probability iii. Hitung prior probability 2. Untuk data uji level 2: i. Hitung frekuensi dan pada database level 2. Simpan ke

Lukman Syafie / JUPITER Volume XV No.2 (2016) 112 ii. iii. Hitung: jumlah tidak terdapat dalam. yang Sipil. Untuk dokumen kategori Non-Sains, digunakan data dari dokumen repository Program Studi Akuntansi, Manajemen, dan Hukum. Tingkat akurasi setiap percobaan diperoleh menggunakan persamaan: 3. Gunakan Sub Algoritma Bayes pada data level 1 4. Untuk data uji level 2: Untuk setiap : i. ii. iii. Hitung Jika maka Kategori=SAINS else Kategori = NON-SAINS Pengujian dilakukan sebanyak 30 kali percobaan dengan variasi jumlah data pelatihan. Percobaan ke-1 diuji menggunakan data pelatihan yang terdiri dari 1 dokumen, percobaan ke-2 diuji menggunakan data pelatihan yang terdiri dari 2 dokumen, dan seterusnya sampai percobaan ke-30 dengan data pelatihan terdiri dari 30 dokumen untuk masing-masing kategori Sains dan Non- Sains. Untuk setiap perco-baan, digunakan data pengujian yang terdiri dari 20 dokumen Sains dan 20 dokumen Non-Sains. Untuk dokumen kategori Sains, digunakan data dari dokumen repository Program Studi Teknik Infor-matika, Teknik Elektro, dan Teknik Tabel 1. Total frekuensi kata dan total kata yang berbeda pada setiap percobaan. No Frequensi Kata Total Kata S H yang unik 1 264 343 289 2 365 427 375 3 486 577 503 4 581 727 534 5 646 845 608 6 676 969 670 7 771 1047 713 8 866 1205 752 9 986 1290 822 10 1123 1319 896 11 1252 1354 949 12 1330 1425 1016 13 1429 1506 1075 14 1510 1623 1133 15 1624 1757 1203 16 1726 1901 1251 17 1778 1995 1283 18 1828 2125 1318 19 1901 2207 1370 20 1976 2313 1413 21 2049 2463 1453 22 2252 2602 1529 23 2396 2746 1583 24 2548 2900 1668 25 2719 3034 1725 26 2827 3217 1772 27 2902 3453 1835 28 2973 3597 1871 29 3077 3769 1905 30 3095 3887 1946 Untuk mengimplementasikan rumus yang telah dibuat, dibangun sistem simulasi untuk menguji tingkat akurasi yang dihasilkan. Pengujian terhadap metode yang digunakan menunjukkan bahwa proses klasifikasi dapat dilakukan dengan baik hingga mencapai tingkat akurasi 97,5%.

Lukman Syafie / JUPITER Volume XV No.2 (2016) 113 Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut. Tabel 2. Hasil pengujian data No Acuracy (%) Error (%) Rata-rata lama proses 1 2 90 90 10 10 0,735 0,745 3 87,5 12,5 0,757 4 92,5 7,5 0,778 5 92,5 7,5 0,765 6 95 5 0,761 7 95 5 0,747 8 95 5 0,735 9 92,5 7,5 0,745 10 87,5 12,5 0,751 11 87,5 12,5 0,746 12 87,5 12,5 0,743 13 85 15 0,741 14 87,5 12,5 0,755 15 90 10 0,793 16 92,5 7,5 0,784 17 92,5 7,5 0,435 18 92,5 7,5 0,761 19 92,5 7,5 0,744 20 92,5 7,5 0,753 21 92,5 7,5 0,747 22 92,5 7,5 0,763 23 92,5 7,5 0,766 24 92,5 7,5 0,787 25 92,5 7,5 0,757 26 95 5 0,750 27 95 5 0,763 28 95 5 0,765 29 95 5 0,500 30 95 5 0,767 Gambar 10. Grafik tingkat akurasi setiap percobaan Gambar 11. Grafik tingkat error setiap percobaan Dari grafik tingkat akurasi terlihat bahwa nilai akurasi dari keseluruhan pengujian cenderung meningkat. Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut. Dari grafik tingkat Error terlihat bahwa nilai Error dari keseluruhan pengujian cenderung menurun. Meskipun nilai error tersebut masih cukup besar, tetapi nilai tersebut dapat diperkecil lagi jika dilakukan koreksi terhadap False Negatif dan False Positif saat proses pengujian. False Negatif adalah suatu keadaan ketika sistem mengklasifikasikan dokumen Sains sebagai Non- Sains. False Positif adalah suatu keadaan ketika sistem mengklasifikasikan dokumen Non-Sains sebagai dokumen Sains.

Lukman Syafie / JUPITER Volume XV No.2 (2016) 114 5. Kesimpulan Berdasarkan hasil penelitian, maka dapat ditarik kesimpulan sebagai berikut : 1. Algoritma yang dibuat mampu melakukan klasifikasi dokumen repository dengan akurasi yang cukup tinggi. 2. Jumlah data pelatihan berpengaruh secara signifikan terhadap hasil proses klasifikasi. 3. Tingkat akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata dokumen uji yang tidak terdapat pada data pelatihan. DAFTAR PUSTAKA [1] Guermazi, Radhouane,et al. (2007). Combining Classifiers for Web Violent Content Detection and Filtering. ICCS 2007, Part III, LNCS 4489, pp. 773 78. [2] Larose, D.T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, Jhon Wiley & Sons, Inc. [3] Lee, Pui Y., et al. (2002). Neural Networks for Web Content Filtering. Nanyang Technological University. Jurnal IEEE Intelligent Systems. [4] Lewis. David D. (2000). Stop word list of the Smart Information Retrieval Project. http://jmlr.org/papers/volume5/lewis04a/a11 -smart-stop-list/ english.stop. Diakses tanggal 30 Januari 2013 02:40 [6] Pop, Ioan. (2006). An approach of the Naive Bayes classifier for the document classification. General Mathematics Vol. 14, No. 4 (2006), 135 138. [7] Sahlan, La Ode. (2011). Penerapan Metode Naive Bayesian Dalam Pengklasifikasian Dokumen Web. Makassar. Skripsi, Jurusan Matematika Universitas Hasanuddin. [8] Sari, Riri Fitri, dkk. (2011). Teknik Ekstraksi Informasi di Web. CV. Andi Offset, Yogyakarta. [9] Shadiq, Muh. Ammar. (2009). Keoptimalan Naïve Bayes dalam Klasifikasi. Program Studi Ilmu Komputer Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan Alam Universitas Pendidikan Indonesia. [10] Susanto, Sani, dkk. (2010). Pengantar Data Mining, Menggali Pengetahuan dari Bongkahan Data. CV. Andi Offset, Yogyakarta. [11] Syafie, Lukman (2013). Perancangan Algoritma Bayesian Network Untuk Memfilter Website Terlarang. E-journal, Universitas Hasanuddin, Makassar. [12] Urvoy, Tangui, dkk. (2008). Tracking Web Spam with HTML Style Similarities. ACM Journal Name, Vol. V, No. N, Month 2006, Pages 1 26. [5] Pasaribu, Hiskia E., et al. (2010). Klasifikasi Dokumen Web Menggunakan Version Space Support Vector Machine. Fakultas Informatika Institut Teknologi Telkom, Bandung. Konferensi Nasional Sistem dan Informatika (2010). KNS I10-059.