KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

Lukman Syafie / JUPITER Volume XV No.2 (2016) 109 KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK Lukman Syafie Staf Pengajar Teknik Informatika, Fakultas Ilmu Komputer Universitas Muslim Indonesia Makassar e-mail: lukmansyafie@gmail.com Abstrak Penelitian ini bertujuan untuk: (1) membangun algoritma klasifikasi Bayesian Network, (2) merancang simulasi klasifikasi yang mampu mengklasifikasi dokumen repository secara otomatis berdasarkan algoritma klasifikasi yang dibuat, dan (3) menganalisis kinerja hasil simulasi algoritma klasifikasi Bayesian Network untuk klasifikasi dokumen repository. Metode penelitian yang digunakan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Hasil kajian diharapkan bermanfaat dalam membantu mengklasifikasikan suatu dokumen secara otomatis, serta menjadi dasar pembuatan sistem klasifikasi yang lebih kompleks. Kata Kunci: Bayes Network, Klasifikasi, Dokumen, Algoritma Abstract This study aims to (1) develop the classification of the Algorithm Bayesian Network; (2) design the simulation classification which will be capable of classifying the document repository automatically based on the existing algorithm classification; (3) analyze the simulation result of the performance of the Algorithm Bayesian Network to classification document repository. The method used in the research was the quantitative experimental method. The study results are expected to be useful in helping to classify a document automatically, as well as a base for a more complex classification system. Keywords: Bayes Network, Document Classification, Algorithm. 1. Pengantar Perkembangan teknologi informasi yang sangat pesat memungkinkan tersedianya informasi di internet yang dapat diperoleh dengan cepat. Internet menjadi media utama dalam penyebaran dan perolehan kembali informasi. Keberadaan informasi yang sangat luas di internet diharapkan dapat diantisipasi dengan penyaringan data secara otomatis yang dapat membantu proses pencarian informasi secara cepat. Oleh karena itu, diperlukan pemahaman tentang perangkat dan metodologi untuk mencari data kemudian mengambil intisarinya untuk tujuan tertentu. Untuk memudahkan proses pengambilan informasi dari sekumpulan data diperlukan adanya proses ekstraksi informasi. Ekstraksi informasi adalah proses mendapatkan faktafakta terstruktur dari sekumpulan data yang tersedia. Tantangan utama yang dihadapi adalah bagaimana melakukan ekstraksi data secara otomatis. Pada ekstraksi data secara otomatis ada beberapa hal yang harus kita sadari, yaitu bahwa proses ini harus dapat dilakukan tanpa ada pengawasan dari manusia [8]. Salah satu tahap yang sangat penting dalam proses ekstraksi informasi adalah fungsi klasifikasi. Klasifikasi yang dimaksud di sini adalah bagian teknik dari Web Mining yaitu Web Content Mining yang berfokus pada analisa konten informasi teks yang tersimpan pada dokumen web yaitu dengan menggunakan machine learning [1] [5]. Beberapa metode telah dilakukan untuk klasifikasi. Lee telah mengajukan teknik klasifikasi berdasarkan isi teks yang terdapat pada website menggunakan metode Artificial Neural Networks (ANN) [3]. Pop mengajukan teknik klasifikasi menggunakan

Lukman Syafie / JUPITER Volume XV No.2 (2016) 110 Naive Bayesian F [6], sedang Urvoy menggunakan metode analisis kesamaan bentuk HTML [12]. Metode klasifikasi yang lain yaitu menggunakan algoritma CART [10]. Dalam proses klasifikasi, jika suatu data pengujian tidak ada dalam data pelatihan, maka data pengujian tersebut menjadi sulit untuk diklasifikasikan [9]. Atas dasar itu, digunakan teknik penambahan nilai peluang dari kata-kata pada website pengujian yang tidak terdapat pada data pelatihan [11]. 2. Kajian Literatur dan Pengembangan Hipotesis Teorema Bayes yang juga dikenal sebagai aturan Bayes adalah alat yang berguna untuk menghitung peluang bersyarat (conditional probability). Peluang bersyarat dari A saat B dilambangkan dengan P(A B) [4]. Klasifikasi adalah salah satu tugas yang penting dalam data mining, dalam klasifikasi sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditentukan sebelumnya [5]. Bayesian Network merupakan metode yang dapat digunakan untuk melakukan klasifikasi berdasarkan konten dari dokumen. Bayesian Network bekerja dengan cara menghitung probabilitas dari suatu dokumen berdasarkan kontennya [6]. Proses klasifikasi dilakukan dengan menghitung nilai peluang menggunakan persamaan: (1) dengan merupakan nilai peluang kategori c i jika diketahui dokumen wj, merupakan nilai peluang dari kemunculan dokumen w j jika diketahui dokumen tersebut berkategori c i, adalah nilai peluang kemunculan kategori c i, dan adalah nilai peluang kemunculan dokumen w j. Dokumen terdiri dari kumpulan katakata yang menyusun dokumen tersebut sehingga perhitungan peluang dapat dianggap sebagai hasil perkalian dari peluang kemunculan kata-kata pada dokumen wj [6][7][9]: (2) dan diperoleh dari perhitungan: (3) dengan adalah fungsi yang mengembalikan nilai kemunculan kata pada kategori, adalah fungsi yang mengembalikan jumlah keseluruhan kata pada kategori, dan merupakan banyaknya kata yang unik. Dari persamaan (1) dan persamaan (2) diperoleh: dimana (4) merupakan suatu nilai konstan dalam setiap perhitungan sehingga persamaan (3) dapat dinyatakan dalam bentuk persamaan: (5) Dari proses klasifikasi ini, dokumen dikategorikan sebagai dokumen Sains (S) jika: (6) dan sebaliknya termasuk Non-Sains (H) jika (7) Berdasarkan persamaan (3) dan sifatsifat yang dimiliki oleh operator perkalian pada bilangan pecahan, maka akan diperoleh nilai peluang kemunculan kata yang sangat kecil dan cenderung menuju nol. Hal ini mengakibatkan rumusan umum klasifikasi yang ditunjukkan dalam persamaan (5) akan gagal mengklasifikasi dokumen yang diberikan. Oleh karena itu dilakukan modifikasi persamaan dengan bentuk

Lukman Syafie / JUPITER Volume XV No.2 (2016) 111 logaritma natural, sehingga persamaan klasifikasi yang baru dinyatakan dalam bentuk: atau atau (8) (9) (10) Dengan demikian diperoleh rumus klasifikasi yang baru: (11) Dari persamaan ini, dokumen dikategorikan sebagai dokumen Sains (S) jika: (12) dan sebaliknya termasuk Non-Sains (H) jika: 3. Metode Penelitian (13) Secara umum desain penelitian yang dilakukan adalah metode eksperimen dengan bentuk penelitian kuantitatif. Data yang digunakan dalam penelitian ini adalah data primer, yaitu sekumpulan dokumen Repository yang akan diklasifikasikan berdasarkan konten atau isi teks. Lokasi penelitian adalah Perpustakaan Utsman bin Affan, Universitas Muslim Indonesia yang terletak di Jl. Urip Sumoharjo Km. 5 Makassar. Variabel atau peubah yang diamati dan diukur dalam penulisan ini adalah: Dokumen repository yang dilambangkan dengan atribut w j, yang mewakili dokumen ke-j. Kata-kata dalam dokumen dilambangkan dengan k p, yang mewakili kata ke-p. Kategori dari dokumen yang dilambangkan dengan c i, yaitu kategori ke-i. 4. Hasil dan Pembahasan Berdasarkan rumusan klasifikasi yang telah disusun, dibuat suatu algoritma klasifikasi Bayesian Network sebagai berikut: Sub Algoritma Bayes 1. Hitung jumlah kata: 2. Hitung jumlah frekuensi kata pada kategori S: 3. Hitung jumlah frekuensi kata pada kategori H: 4. Untuk setiap pada kategori S, hitung 5. Untuk setiap pada kategori H, hitung Sub Algoritma L1 1. Untuk data pelatihan (level 1): i. Hitung frekuensi dan pada database level 1. Simpan ke ii. Hitung prior probability iii. Hitung prior probability 2. Untuk data uji level 2: i. Hitung frekuensi dan pada database level 2. Simpan ke

Lukman Syafie / JUPITER Volume XV No.2 (2016) 112 ii. iii. Hitung: jumlah tidak terdapat dalam. yang Sipil. Untuk dokumen kategori Non-Sains, digunakan data dari dokumen repository Program Studi Akuntansi, Manajemen, dan Hukum. Tingkat akurasi setiap percobaan diperoleh menggunakan persamaan: 3. Gunakan Sub Algoritma Bayes pada data level 1 4. Untuk data uji level 2: Untuk setiap : i. ii. iii. Hitung Jika maka Kategori=SAINS else Kategori = NON-SAINS Pengujian dilakukan sebanyak 30 kali percobaan dengan variasi jumlah data pelatihan. Percobaan ke-1 diuji menggunakan data pelatihan yang terdiri dari 1 dokumen, percobaan ke-2 diuji menggunakan data pelatihan yang terdiri dari 2 dokumen, dan seterusnya sampai percobaan ke-30 dengan data pelatihan terdiri dari 30 dokumen untuk masing-masing kategori Sains dan Non- Sains. Untuk setiap perco-baan, digunakan data pengujian yang terdiri dari 20 dokumen Sains dan 20 dokumen Non-Sains. Untuk dokumen kategori Sains, digunakan data dari dokumen repository Program Studi Teknik Infor-matika, Teknik Elektro, dan Teknik Tabel 1. Total frekuensi kata dan total kata yang berbeda pada setiap percobaan. No Frequensi Kata Total Kata S H yang unik 1 264 343 289 2 365 427 375 3 486 577 503 4 581 727 534 5 646 845 608 6 676 969 670 7 771 1047 713 8 866 1205 752 9 986 1290 822 10 1123 1319 896 11 1252 1354 949 12 1330 1425 1016 13 1429 1506 1075 14 1510 1623 1133 15 1624 1757 1203 16 1726 1901 1251 17 1778 1995 1283 18 1828 2125 1318 19 1901 2207 1370 20 1976 2313 1413 21 2049 2463 1453 22 2252 2602 1529 23 2396 2746 1583 24 2548 2900 1668 25 2719 3034 1725 26 2827 3217 1772 27 2902 3453 1835 28 2973 3597 1871 29 3077 3769 1905 30 3095 3887 1946 Untuk mengimplementasikan rumus yang telah dibuat, dibangun sistem simulasi untuk menguji tingkat akurasi yang dihasilkan. Pengujian terhadap metode yang digunakan menunjukkan bahwa proses klasifikasi dapat dilakukan dengan baik hingga mencapai tingkat akurasi 97,5%.

Lukman Syafie / JUPITER Volume XV No.2 (2016) 113 Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut. Tabel 2. Hasil pengujian data No Acuracy (%) Error (%) Rata-rata lama proses 1 2 90 90 10 10 0,735 0,745 3 87,5 12,5 0,757 4 92,5 7,5 0,778 5 92,5 7,5 0,765 6 95 5 0,761 7 95 5 0,747 8 95 5 0,735 9 92,5 7,5 0,745 10 87,5 12,5 0,751 11 87,5 12,5 0,746 12 87,5 12,5 0,743 13 85 15 0,741 14 87,5 12,5 0,755 15 90 10 0,793 16 92,5 7,5 0,784 17 92,5 7,5 0,435 18 92,5 7,5 0,761 19 92,5 7,5 0,744 20 92,5 7,5 0,753 21 92,5 7,5 0,747 22 92,5 7,5 0,763 23 92,5 7,5 0,766 24 92,5 7,5 0,787 25 92,5 7,5 0,757 26 95 5 0,750 27 95 5 0,763 28 95 5 0,765 29 95 5 0,500 30 95 5 0,767 Gambar 10. Grafik tingkat akurasi setiap percobaan Gambar 11. Grafik tingkat error setiap percobaan Dari grafik tingkat akurasi terlihat bahwa nilai akurasi dari keseluruhan pengujian cenderung meningkat. Meskipun terdapat kasus penurunan tingkat akurasi pada saat tertentu, hal ini disebabkan oleh karena jumlah data pelatihan yang masih kecil. Dari keseluruhan pengujian, tingkat akurasi cenderung naik seiring dengan penambahan jumlah data pelatihan tersebut. Dari grafik tingkat Error terlihat bahwa nilai Error dari keseluruhan pengujian cenderung menurun. Meskipun nilai error tersebut masih cukup besar, tetapi nilai tersebut dapat diperkecil lagi jika dilakukan koreksi terhadap False Negatif dan False Positif saat proses pengujian. False Negatif adalah suatu keadaan ketika sistem mengklasifikasikan dokumen Sains sebagai Non- Sains. False Positif adalah suatu keadaan ketika sistem mengklasifikasikan dokumen Non-Sains sebagai dokumen Sains.

Lukman Syafie / JUPITER Volume XV No.2 (2016) 114 5. Kesimpulan Berdasarkan hasil penelitian, maka dapat ditarik kesimpulan sebagai berikut : 1. Algoritma yang dibuat mampu melakukan klasifikasi dokumen repository dengan akurasi yang cukup tinggi. 2. Jumlah data pelatihan berpengaruh secara signifikan terhadap hasil proses klasifikasi. 3. Tingkat akurasi hasil klasifikasi dapat ditingkatkan dengan teknik penambahan nilai peluang dari kata-kata dokumen uji yang tidak terdapat pada data pelatihan. DAFTAR PUSTAKA [1] Guermazi, Radhouane,et al. (2007). Combining Classifiers for Web Violent Content Detection and Filtering. ICCS 2007, Part III, LNCS 4489, pp. 773 78. [2] Larose, D.T. (2005). Discovering Knowledge in Data: An Introduction to Data Mining. Wiley-Interscience, Jhon Wiley & Sons, Inc. [3] Lee, Pui Y., et al. (2002). Neural Networks for Web Content Filtering. Nanyang Technological University. Jurnal IEEE Intelligent Systems. [4] Lewis. David D. (2000). Stop word list of the Smart Information Retrieval Project. http://jmlr.org/papers/volume5/lewis04a/a11 -smart-stop-list/ english.stop. Diakses tanggal 30 Januari 2013 02:40 [6] Pop, Ioan. (2006). An approach of the Naive Bayes classifier for the document classification. General Mathematics Vol. 14, No. 4 (2006), 135 138. [7] Sahlan, La Ode. (2011). Penerapan Metode Naive Bayesian Dalam Pengklasifikasian Dokumen Web. Makassar. Skripsi, Jurusan Matematika Universitas Hasanuddin. [8] Sari, Riri Fitri, dkk. (2011). Teknik Ekstraksi Informasi di Web. CV. Andi Offset, Yogyakarta. [9] Shadiq, Muh. Ammar. (2009). Keoptimalan Naïve Bayes dalam Klasifikasi. Program Studi Ilmu Komputer Fakultas Pendidikan Matematika Dan Ilmu Pengetahuan Alam Universitas Pendidikan Indonesia. [10] Susanto, Sani, dkk. (2010). Pengantar Data Mining, Menggali Pengetahuan dari Bongkahan Data. CV. Andi Offset, Yogyakarta. [11] Syafie, Lukman (2013). Perancangan Algoritma Bayesian Network Untuk Memfilter Website Terlarang. E-journal, Universitas Hasanuddin, Makassar. [12] Urvoy, Tangui, dkk. (2008). Tracking Web Spam with HTML Style Similarities. ACM Journal Name, Vol. V, No. N, Month 2006, Pages 1 26. [5] Pasaribu, Hiskia E., et al. (2010). Klasifikasi Dokumen Web Menggunakan Version Space Support Vector Machine. Fakultas Informatika Institut Teknologi Telkom, Bandung. Konferensi Nasional Sistem dan Informatika (2010). KNS I10-059.