PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

dokumen-dokumen yang mirip
PEMANFAATAN TEKNIK SUPERVISED UNTUK KLASIFIKASI TEKS BAHASA INDONESIA

BAB II LANDASAN TEORI

OPTIMALISASI IKLAN DENGAN SISTEM KONTRAK MENGGUNAKAN METODE CONTEXTUAL ADVERTISING PADA PORTAL BERITA ONLINE

BAB IV HASIL DAN PEMBAHASAN

BAB I PENDAHULUAN 1.1 Latar Belakang

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Gambar 1.1 Proses Text Mining [7]

BAB II LANDASAN TEORI

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

IDENTIFIKASI PARAFRASA BAHASA INDONESIA MENGGUNAKAN NAÏVE BAYES

BAB I PENDAHULUAN. Pada sekarang ini ketersediaan informasi berbentuk dokumen teks. sebagian besar sudah berbentuk elektronik (softcopy).

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang

Bandung, Indonesia Bandung, Indonesia

Moch. Ali Machmudi 1) 1) Stmik Bina Patria

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

FEATURE SELECTION UNTUK KLASIFIKASI TEKS DENGAN MEKANISME WITHIN CLASS POPULARITY(WCP)

BAB I. Pendahuluan. 1. Latar Belakang Masalah

PERBANDINGAN K-NEAREST NEIGHBOR DAN NAIVE BAYES UNTUK KLASIFIKASI TANAH LAYAK TANAM POHON JATI

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

Perbandingan Klasifikasi Tugas Akhir Mahasiswa Jurusan Teknik Informatika Menggunakan Metode Naïve Bayes Classifier dan K-Nearest Neighbor

BAB 1 PENDAHULUAN 1.1. Latar belakang

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

Tugas Ujian Tengah Semester (UTS) Data Mining Lanjut ABSTRAK

Perbandingan Algoritma Pendeteksian Spam

BABI PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. seluruh dunia menjadi sebuah fenomena yang sangat mengejutkan dalam satu abad

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

KLASIFIKASI PADA TEXT MINING

BAB 1 PENDAHULUAN UKDW

KLASIFIKASI PADA TEXT MINING

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

Journal Speed Sentra Penelitian Engineering dan Edukasi Volume 8 No

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB 2 LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI DOKUMEN REPOSITORY SECARA OTOMATIS MENGGUNAKAN METODE BAYESIAN NETWORK

BAB III METODELOGI PENELITIAN

BAB II LANDASAN TEORI

1. Introduction. tertentu memegang peran penting dalam. Abstract

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

BAB I PENDAHULUAN. 1.1 Latar Belakang Saat ini pendidikan di Indonesia semakin berkembang. Banyaknya

BAB III METODE PENELITIAN

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

Scientific Journal of Informatics Vol. 2, No. 1, Mei 2015

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

BAB I PENDAHULUAN 1.1 Latar Belakang

INVERSE CLASS FREQUENCY DAN NAÏVE BAYES PADA KLASIFIKASI DUAL STAGE PADA DOKUMEN BERBAHASA ARAB

BAB III METODOLOGI PENELITIAN

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB IV PREPROCESSING DATA MINING

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. sistem peredaran darah orang lain. Sebelum ditransfusikan, periksa kembali sifat

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

1. Pendahuluan 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB II LANDASAN TEORI

Versi Online tersedia di : JURNAL TECH-E (Online)

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

BAB I PENDAHULUAN. 1.1 Latar belakang

Sistem Rekomendasi Bacaan Tugas Akhir Jurusan Teknik Informatika Universitas Sriwijaya menggunakan Metode Collaborative Filtering dan Naive Bayes

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

BAB V EKSPERIMEN TEXT CLASSIFICATION

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

ANALISIS PERBANDINGAN IMPLEMENTASI KERNEL PADA LIBRARY LibSVM UNTUK KLASIFIKASI SENTIMEN MENGGUNAKAN WEKA

BAB I PENDAHULUAN. 1.1 Latar Belakang

Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen

Penerapan Algoritma K-Nearest Neighbor pada Information Retrieval dalam Penentuan Topik Referensi Tugas Akhir

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II LANDASAN TEORI

Implementasi Algoritma Naive Bayes Classifier dalam Pengklasifikasian Teks Otomatis Pengaduan dan Pelaporan Masyarakat melalui Layanan Call Center 110

BAB I PENDAHULUAN I - 1

ANALISIS PENYAKIT PARU-PARU MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS PADA RUMAH SAKIT ALOEI SABOE KOTA GORONTALO

JULIO ADISANTOSO - ILKOM IPB 1

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

BAB III METODOLOGI PENELITIAN

Komparasi Algoritma Support Vector Machine, Naïve Bayes Dan C4.5 Untuk Klasifikasi SMS

APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP MENGGUNAKAN NAÏVE BAYES SKRIPSI

ROCCHIO CLASSIFICATION

TINJAUAN PUSTAKA. Definisi Data Mining

BAB I PENDAHULUAN 1.1. Latar Belakang

Transkripsi:

ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama cahyod@gmail.com Abstrak Klasifikasi dokumen teks sebenarnya adalah permasalahan yang mendasar dan penting. Didalam dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu, permasalahan ini sangat menantang dikarenakan penggunaan bahasa alami tersebut Setelah melewati beberapa penelitian, ternyata dengan mengesampingkan pemrosesan bahasa natural dan menggunakan pendekatan statistik yaitu dengan hanya menganggap dokumen tersebut merupakan bag of word didapat performa yang cukup memuaskan. Oleh karena itu, dikembangkannya berbagai metode klasifikasi yang tidak memperhitungkan semantik dari dokumen tersebut.didalam makalah ini, dibahas metode klasifikasi dokumen teks dengan menggunakan konsep pohon, yaitu dengan memperhitungkan jumlah kemunculan semua kata yang muncul dalam dokumen teks tersebut. Sebagai pembanding untuk metode tersebut, dibahas juga metode seperti metode Naive Bayes, yaitu metode dengan menghitung probabilitas kemunculan kata dan metode K-Nearest Neighbor (KNN), yaitu metode yang memperhitungkan kemiripan jumlah kemunculan kata antara satu dokumen dengan dokumen lain, Setelah membahas metode-metode yang ada, dilakukan percobaan terhadap data untuk mengetahui performa masing-masing metode untuk diketahui sebenarnya metode mana yang paling baik untuk digunakan dalam permasalahan klasifikasi teks. I. Pendahuluan Pengklasifikasian teks sangat dibutuhkan dalam berbagai macam aplikasi, terutama aplikasi yang jumlah dokumennya bertambah dengan cepat. Ada dua cara dalam penggolongan teks, yaitu clustering teks dan klasifikasi teks. Clustering teks berhubungan dengan menemukan sebuah struktur kelompok yang belum kelihatan (tak terpandu atau unsupervised) dari sekumpulan dokumen. Sedangkan pengklasifikasian teks dapat dianggap sebagai proses untuk membentuk golongangolongan (kelas-kelas) dari dokumen berdasarkan pada kelas kelompok yang sudah diketahui sebelumnya (terpandu atau supervised). 2-1

Gambar 1. Pembelajaran mesin dengan klasifikasi terpadu Gambar 1 menunjukkan proses dari klasifikasi teks secara terpandu menggunakan pembelajaran mesin. Input mengalami pre-processing yaitu bisa berupa stop word atau stemming. Selama pelatihan seperti ditunjukkan pada Gambar 1, ekstraksi fitur diterapkan untuk mengkonversi setiap nilai masukan ke himpunan fitur. Pasangan himpunan fitur dan label kemudian diumpankan ke algoritma pembelajaran mesin untuk membangkitkan sebuah model. Selama prediksi ekstraksi fitur yang sama diterapkan untuk mengkonversi masukan-masukan baru ke himpunan fitur. Himpunan fitur ini lalu diumpankan ke model, yang akan membangkitkan perkiraan (prediksi) label. Sewaktu pengujian, prediksi-prediksi label ini dicocokkan dengan label sebenarnya untuk mengevaluasi kinerja pengklasifikasi teks terpandu. II. Metode Pengklasifikasian Teks Beberapa metode yang dapat digunakan untuk pengklasifikasian teks [1], antara lain adalah Na ıve Bayes [2], k-nearest neighbor [3], Support Vector Machines (SVM), boosting, algoritma pembelajaran aturan (rule learning algorithms) dan Maximum Entropy (MaxEnt). Dalam makalah ini mengggunakan dua metode yaitu :Naïve Bayes dan k-nearest Neighbor. Metode Naïve Bayes dikenal dengan algoritma klasifikasi simple Bayesian [4]. Algoritma ini banyak digunakan karena terbukti efektif untuk kategorisasi teks, sederhana, cepat dan akurasi tinggi. Sedangkan Metode k-nearest Neighbor adalah suatu metode untuk mengklasifikasikan data baru berdasarkan similaritas dan labeled data [5]. Similaritas yang dimaksud biasanya menggunakan metric jarak. Satuan jarak yang dipakai biasanya disebut dengan Euclidian [aplikasi of k-nn] Jenis dari metode ini, jika dilihat dari nilai N-nya ada dua macam yaitu : 2-2

a. 1-NN Pengklasifikasian dilakukan pada 1 labeled data terdekat, algoritmanya sebagai berikut - Menghitung jarak antara data baru ke setiap labeled data - Menentukan 1 labeled data yang mempunyai jarak paling minimal - Klasifikasi data baru ke dalam labeled data tersebut b. k-nn Pengklasifikasian dilakukan dengan menentukan nilai pada k labeled data terdekat, dengan syarat nilai k>1, algoritmanya sebagai berikut : - Menghitung jarak antara data baru ke setiap labeled data - Menentukan k labeled data yang mempunyai jarak paling minimal - Klasifikasi data baru ke dalam labeled data yang mayoritas III. Eksperimen a. Himpunan data eksperimen Dalam eksperimen ini, himpunan data yang akan diuji adalah kumpulan artikel dari majalah CHIP dan dibagi menurut kelas-kelasnya. Kelas-kelas yang dimaksud adalah pengkategorian jenis artikel, disesuaikan dengan pengkategorian artikel di dalam majalah CHIP, sehingga bisa dibedakan menjadi 5 kelas, yaitu : 1. Game 2. Hardware 3. Software 4. News 5. Tip trik Jumlah total artikel sangat banyak namun data yang penulis siapkan adalah teks yang tersebar pada tiap-tiap kelasnya. 3000 data b. Ukuran Evaluasi Standar ukuran untuk mengevaluasi kinerja sebuah Algoritma dalam pengkategorian teks antara lain adalah recall dan precision. Ukuran untuk mengevaluasi kinerja yang digunakan pada eksperimen adalah accuracy. Accuracy merupakan jumlah rata-rata dari hasil recall pada tiap kelasnya. 2-3

IV. Hasil Eksperimen 1. Deskripsi Eksperimen Eksperimen yang akan dilakukan adalah melihat kinerja dari dua Algoritma klasifikasi dokumen teks yaitu algoritma Naïve Bayes dan algoritma k-nearest Neighbor. Dari kedua Algoritma ini akan diuji dengan 2 masukan yaitu menggunakan stop word removal maupun tanpa stop word removal (sebagaimana adanya). Kedua Algoritma, pengujian dilakukan validasi silang sebanya 10 kali (10 folds validation), yaitu dengan membagi data uji menjadi 10 sub samples, Untuk rasio data uji dimulai dari 10 %, naik 10% setiap kali uji sampai dengan 90 %. Tiap rasio dilakukan 10 kali pengujian dan output yang diinginkan adalah accuracy rata-ratanya. menggunakan software Rapidminner.. Gambar 2. Tampilan Software Rapidminner 2-4

Gambar 3. Tampilan Hasil Kinerja Pengklasifikasian Teks pada Rapidminner 2. Implementasi Algoritma Naïve Bayes Tabel 1 merupakan hasil implementasi Algoritma Naive Bayes pada dokumen teks sebagaimana adanya (tanpa stop word removal). Terlihat accuracy terbesar terjadi pada data pelatihan (training sample) mencapai 70% dengan nilai accuracy 87.45% Percentage of Training Sample Accuracy 0.1 61.10 0.2 65.85 0.3 68.19 0.4 69.33 0.5 70.36 0.6 71.62 0.7 73.06 0.8 73.87 0.9 74.2 Tabel 1. Hasil Implementasi Algoritma Naïve Bayes 2-5

2.1 Penggunaan Stopword Removal Dalam Algoritma Naïve Bayes Gambar 4 adalah contoh dokumen teks sebagaimana adanya dan cuplikan stopword yang akan dipakai dalam proses klasifikasi teks. Panasonic KX-HCM10 Kamera dengan Web Server Webcam atau Netcam dengan berat 350 gram ini jika dilihat selintas tidak jauh berbeda penampilan dan fungsinya dengan webcam yang telah ada di pasaran. Namun jika dicermati...... terlalu lalu akankah akan lama akhirnya akhir lamanya aku selama (a) (b) Gambar 4. Contoh Stopword Removal (a)teks biasa (b) Contoh stop word removal Setelah digunakannya stopword removal pada klasifikasi teks menggunakan metode Naïve Bayes, tentu saja hasil accuracy yang diperoleh berbeda jika dibandingkan tanpa menggunakan stop word. Lihat Tabel 2 di bawah ini, terlihat accuracy terbesar terjadi pada saat data pelatihan (training sample) mencapai 90 % dengan nilai accuracy 74.2 % Percentage of Training Sample Accuracy 0.1 61.06 0.2 65.81 0.3 68.15 0.4 69.29 0.5 70.56 0.6 71.58 0.7 73.02 0.8 73.83 0.9 74.2 Tabel 2 Hasil Implementasi Algoritma Naïve Bayes dengan Stopword Removal 2.2 Pengaruh Stopword Removal Dalam Kinerja Algoritma Naïve Bayes Lihat Gambar 5 di bawah ini, gambar tersebut adalah grafik kinerja dari Naïve Bayes dalam pengklasifikasian teks. Secara visual dapat dilihat bahwa penggunaan stopword hanya berdampak sangat kecil pada kinerja/accuracy. (sehingga diagram terlihat berimpit) Terlihat accuracy terbesar sebesar 74,2% sama-sama diperoleh dengan menggunakan stopword maupun tidak. Keduanya memperoleh kinerja terbesar saat data pelatihan mencapai 90 % 2-6

Kinerja Naive Bayes Accuracy 80 70 60 50 40 30 20 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Percentage of Training Samples Gambar 5 Kinerja Naïve Bayes Naïve Bayes Naïve Bayes with stopword removal 3. Implementasi Algoritma k-nearest Neighbor Untuk algoritma k-nearest Neighbor, nilai k ditentukan sama dengan 1.Tabel 3 merupakan hasil implementasi Algoritma k-nearest Neighbor pada dokumen teks sebagaimana adanya (tanpa stop word removal). Terlihat accuracy terbesar terjadi pada data pelatihan (training sample) 10% dengan nilai accuracy 41,67% Percentage of Training Sample Accuracy 0.1 41.67 0.2 34.37 0.3 30.64 0.4 31.59 0.5 29.51 0.6 30.61 0.7 31.53 0.8 33 0.9 35 Tabel 3. Hasil Implementasi Algoritma k-nn 3.1. Penggunaan stopword removal dalam Algoritma k-nearest Neighbor Setelah digunakannya stopword removal pada klasifikasi teks menggunakan metode k-nearest Neighbor, tentu saja hasil accuracy yang diperoleh berbeda jika dibandingkan tanpa menggunakan stop word. Lihat Tabel 4 dibawah ini, terlihat accuracy terbesar terjadi pada saat data pelatihan (training sample) 10% dengan nilai accuracy 41,55. 2-7

Percentage of Training Sample Accuracy 0.1 41.55 0.2 34.43 0.3 30.64 0.4 31.63 0.5 29.49 0.6 30.61 0.7 31.46 0.8 32.89 0.9 34.77 Tabel 4. Hasil Implementasi Algoritma k-nn dengan Stopword Removal 3.2. Pengaruh Stopword Removal Dalam Kinerja Algoritma k-nearest Neighbor Lihat gambar 5 dibawah ini, gambar tersebut adalah grafik kinerja dari k-nearest Neighbor dalam pengklasifikasian teks. Cukup menarik, terlihat accuracy terbesar sebesar 41,67 % Accuracy terbesar tersebut dicapai tanpa menggunakan stopword. Uniknya akurasi terbesar dicapai saat data training hanya 10%, padahal idealnya semakin besar data training akurasinya akan semakin meningkat. Penggunaan stopword juga tidak berpengaruh besar terhadap hasil kinerja, selisih akurasinya dengan k-nearest neighbor tanpa menggunakan stopword cukup tipis, sehingga pada gambar 5 diagramnya berimpit. Kinerja k-nearest neighbor 45 40 35 Accurac 30 25 20 15 10 5 k-nn k-nn with stopword removal 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Percentage of Training Samples Gambar 5. Kinerja k-nearest Neighbor 2-8

Kinerja NB dan k-nn Accuracy 80 70 60 50 40 30 20 10 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Percentage of Training Samples k-nn Naïve Bayes Gambar 6. Kinerja terbaik dari Naïve Bayes dank-nearest Neighbor V. Kesimpulan dari eksperimen yang dilakukan Setelah algoritma Naïve Bayes dan algoritma k-nearest Neighbor diimplementasikan dalam pengklasifikasian dokumen teks, ternyata penggunaan stopword hanya berdampak kecil. Dari kedua algoritma tersebut kinerja terbaik diperoleh jika tanpa menggunakan stopword. Gambar 6 menunjukkan secara umum algoritma yang terbaik. Terlihat bahwa kinerja terbaik diperoleh oleh algoritma Naïve Bayes. Penghargaan Rekan-rekan Common Computing Research Group - Electrical Engineering ITS: Bimo Gumelar, Medika Himura, Heru Arwoko, Meidya Koeshardianto, Mursyidah, dll. Referensi [1] Yiming Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, 1:67 88, 1999. [2] David D. Lewis. Naive (bayes) at forty: The independence assumption in Information retrieval. pages 4 15. Springer Verlag, 1998. [3] Tuba Yavuz and H. Altay Guvenir. Application of k-nearest Neighbor on Fearure Projection Classifier to Text Categorization, 1998 Tuba Yavuz and H Altay Guvenir [4] Wenyuan Dai, et all. Transferring Naïve Bayes Classifiers for Text Classifications, 1997 [5] Ali Ridho Barakbah, Instance base learning (Nearest Neighbor). 2-9