IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

dokumen-dokumen yang mirip
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

BAB II LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

BAB I PENDAHULUAN 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB 1 PENDAHULUAN UKDW

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB I PENDAHULUAN Latar Belakang

BAB II LANDASAN TEORI

Apa itu is K-Nearest Neighbor (KNN) Algorithm?

BAB III METODELOGI PENELITIAN

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB III METODOLOGI PENELITIAN

Gambar 1.1 Proses Text Mining [7]

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. banyak informasi yang tersedia di internet, maka akan semakin sulit juga untuk

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB I PENDAHULUAN 1.1 Latar Belakang

1.5 Metode Penelitian

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II TINJAUAN PUSTAKA

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

BAB I PENDAHULUAN. 1.1 Latar Belakang

PERSETUJUAI\ ARTIKEL ILMIAH. Mashar Eka Putra Dai. S1-Sistem Informasi. Teknik Informatika. Teknik. Penerapan Metode Document Frequency

BAB II LANDASAN TEORI

SISTEM TEMU KEMBALI INFORMASI

POLA KEMAMPUAN ANAK BERDASARKAN RAPOR MENGGUNAKAN TEXT MINING DAN KLASIFIKASI NEAREST NEIGHBOR

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB II LANDASAN TEORI

BAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa

KLASIFIKASI DOKUMEN KOMENTAR PADA SITUS YOUTUBE MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBOR (K-NN)

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

3.6 Data Mining Klasifikasi Algoritma k-nn (k-nearest Neighbor) Similaritas atribut numerik

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 3 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

APLIKASI PREDIKSI HARGA SAHAM APPLE, IBM, DELL DAN HP MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB III METODE PENELITIAN

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

BAB I PENDAHULUAN. pendidikan, perbankan, perencanaan dan sebagainya. Dengan adanya teknologi komputer

TEKNIK DATA MINING UNTUK MEMPREDIKSI MASA STUDI MAHASISWA MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORHOOD

INTELEGENSI BUATAN. Mesin Pembelajaran (Machine Learning)

BAB I PENDAHULUAN. minat dalam persaingan mengembangkan atau membuat berbagai teknologi baru.

BAB V EKSPERIMEN TEXT CLASSIFICATION

Abidah Elcholiqi, Beta Noranita, Indra Waspada

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

JURNAL ITSMART Vol 4. No 2. Desember 2015 ISSN :

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

BAB I PENDAHULUAN Latar Belakang

BAB III METODOLOGI PENELITIAN

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

PENGENALAN POLA BENTUK BUNGA MENGGUNAKAN PRINCIPLE COMPONENT ANALYSIS DAN K-NN

BAB II LANDASDAN TEORI

BAB 2 TINJAUAN PUSTAKA

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

ROCCHIO CLASSIFICATION

Sistem Temu Kembali Informasi pada Dokumen Teks Menggunakan Metode Term Frequency Inverse Document Frequency (TF-IDF)

KLASIFIKASI PADA TWEET BERBAHASA INDONESIA MENGGUNAKAN METODE GRAVITASI DATA TUGAS AKHIR. Disusun Oleh : Mufida Lutfiah Ulfa

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB III ANALISA DAN PERANCANGAN SISTEM

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

BAB 3 LANDASAN TEORI

Klasifikasi Dokumen Sambat Online Menggunakan Metode K-Nearest Neighbor dan Features Selection Berbasis Categorical Proportional Difference

BAB III ANALISA DAN PERANCANGAN SISTEM

ANALISIS PENYAKIT PARU-PARU MENGGUNAKAN ALGORITMA K-NEAREST NEIGHBORS PADA RUMAH SAKIT ALOEI SABOE KOTA GORONTALO

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

Penerapan Deep Sentiment Analysis pada Angket Penilaian Terbuka Menggunakan K-Nearest Neighbor

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

Transkripsi:

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik Negeri Malang Email: 1 hardiyantoerik@gmail.com, 2 faisal.polinema@gmail.com, 3 dwi_sti@yahoo.com Abstrak Suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi adalah informasi. Salah satu sumber informasi tersebut adalah Wikipedia Bahasa Indonesia. Banyaknya artikel yang masuk dalam beberapa menyebabkan pembaca kesulitan dalam mencari informasi, terutama dalam pencarian berdasarkan. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat satu namun tetap dapat berhubungan dengan lainnya. Diperlukan sistem yang dapat mengklasifikasi artikel Wikipedia Indonesia secara otomatis. Klasifikasi artikel Wikipedia Indonesia adalah sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks dengan tahapan text preprocessing dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel Wikipedia Indonesia terbentuk vektor kata. Berdasarkan pembobotan tersebut, artikel-artikel Wikipedia Indonesia tersebut diklasifikasikan dengan metode K Nearest Neighbor. Perhitungan centroid pada masingmaing sub sub terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak kedekatan dengan masing-masing data uji. Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran sebesar 60%. Kata kunci: text preprocessing, pembobotan TF IDF, vektor kata, K Nearest Neighbor. 1. Pendahuluan Wikipedia merupakan ensiklopedia elektronik terbesar di dunia saat ini(wang, 2008). Wikipedia Indonesia adalah versi Bahasa Indonesia dari ensiklopedia. Wikipedia sebagai ensiklopedia yang dapat disunting bebas oleh siapa saja melalui jaringan Internet. Wikipedia Indonesia memiliki 371.150 lebih artikel (sumber: https://id.wikipedia.org/wiki/wikipedia_bahasa_ind onesia). Satu artikel Wikipedia Indonesia bukan hanya untuk satu, melainkan beberapa. Sebagai contoh artikel bahasa Jawa dapat termasuk dalam bahasa, Bahasa Indonesia, dan bahasa daerah. Hal tersebut dapat menyebabkan pembaca kesulitan dalam mencari informasi, terutama dalam pencarian berdasarkan. Oleh karena itu diperlukan sebuah klasifikasi untuk artikel Wikipedia agar memiliki tepat satu namun tetap dapat berhubungan dengan lainnya. Dalam permasalahan seperti ini, penulis menggunakan. Metode tersebut adalah K Nearest Neighbor (KNN). Metode KNN merupakan metode untuk data yang sebelumnya telah memiliki kelas, oleh karena itu diperlukan data latih dan data uji. Metode KNN dapat melakukan klasifikasi terhadap dokumen-dokumen yang telah menghasilkan nilai similaritas(purwanti, 2015). Perhitungan similaritas tersebut menggunakan pendekatan euclidean distance. Banyaknya jumlah artikel Wikipedia yang akan diklasifikasi membutuhkan proses klasifikasi dengan waktu yang lama. Oleh karena itu diperlukan sistem yang dapat mengklasifikasi artikel Wikipedia secara otomatis dengan menggunakan metode text preprocessing untuk mengolah teks pada artikel Wikipedia sehingga hasil pengolahan teks tersebut dapat dimanfaatkan untuk klasfikasi artikel menggunakan metode KNN. 2. Text Preprocessing Dikarenakan dokumen teks memiliki data yang tidak terstruktur maka digunakanlah text preprocessing ini untuk merubah data yang belum terstruktur itu menjadi sebuah data yang terstruktur sehingga dapat siap untuk digunakan dalam proses selanjutnya. Text Preprocessing ini memiliki beberapa tahapan yaitu (Nugroho, 2016): a. Mengekstrak teks yang akan kita olah. b. Melakukan stopword, yaitu menghilangkan kata-kata yang tidak bermakna misalkan kata hubung. 3. Pembobotan TF IDF Term Frequency dan Inverse Document Frequency (TF IDF) merupakan pembobotan yang sering digunakan dalam penelusuran informasi dan text mining (Turney dkk, 2010). Term frequency adalah pembobotan yang sederhana dimana penting tidaknya sebuah kata dianggap sama atau sebanding dengan jumlah kemunculan kata tersebut dalam dokumen, sementara itu inverse document frequency (IDF) adalah pembobotan yang mengukur penting

sebuah kata dalam dokumen dilihat pada seluruh dokumen secara global (Purwanti, 2015)rumus:, =, (1) Dimana nilai didapat dari: = log (2) Keterangan:, : Jumlah kemunculan token pada dokumen : Nilai IDF token : Jumlah dokumen yang memuat token : Jumlah dokumen dalam korpus 4. K Nearest Neighbor Algoritma K Nearest Neighbor merupakan sebuah algoritma yang sering digunakan untuk klasifikasi teks dan data(samuel, 2014). Metode KNN adalah metode yang melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan obyek tersebut. KNN termasuk algoritma supervised learning(nugroho, 2016). Supervised learning merupakan suatu pembelajaran yang terawasi dimana jika output yang diharapkan telah diketahui sebelumnya. Biasanya pembelajaran ini dilakukan dengan menggunakan data yang telah ada. Pada metode ini, setiap pola yang diberikan ke dalam telah diketahui outputnya. Tujuan dari algoritma ini adalah mengklasifikasikan obyek berdasarkan atribut dan sampel data latih. Apabila algoritma tersebut diberikan titik query, maka akan ditemukan sejumlah k obyek atau titik latih yang paling dekat dengan titik query. Klasifikasi menggunakan voting terbanyak diantara klasifikasi dari k obyek. Algoritma KNN menggunakan klasifikasi ketetanggaan sebagai nilai prediksi dari query instance yang baru. Algoritma KNN sangat sederhana, bekerja berdasarkan jarak terpendek dari query instance ke sampel data latih untuk menentukan KNN. Sampel data latih diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur dari data. Ruang ini dibagi menjadi bagian-bagian berdasarkan klasifikasi training sample. Sebuah titik pada ruang ini ditandai jika merupakan klasifikasi yang paling banyak ditemukan pada k buah tetangga terdekat dari titik tersebut. Metode pencarian jarak yang digunakan adalah Euclidean Distance yaitu perhitungan jarak terdekat. Perhitungan jarak terdekat dibutuhkan untuk menentukan jumlah kemiripan yang dihitung dari kemiripan kemunculan teks yang dimiliki suatu paragraf. Setelah itu kemunculan teks yang sedang diujikan dibandingkan terhadap masing-masing sampel data asli. Persamaan jarak euclidean distance:, : Jarak dokumen ke- ke dokumen ke- : Kata ke di dokumen ke- : Kata ke di dokumen ke- 5. Metodologi Penelitian Pada bagian ini dibahas metode yang digunakan peneliti dalam Implementasi KNN pada klasifikasi artikel Wikipedia Indonesia. Metode pengembangan aplikasi yang digunakan adalah metode prototyping. Proses kegiatan yang ada pada metode prototyping dapat dijelaskan pada Gambar 1. 1. Pengumpulan Kebutuhan 2. Membangun Prototype 3. Evaluasi Prototype 4. Pembuatan Sistem 5. Menguji Sistem 6. Evaluasi Sistem Gambar 1.Prototype Model 6. Rancangan Klasifikasi artikel Wikipedia Indonesia adalah sebuah sistem yang berfungsi untuk mengklasifikasi artikel Wikipedia Indonesia yang berupa dokumen teks. Tahapan text preprocessing dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel Wikipedia Indonesia hingga terbentuk vektor kata. Berdasarkan pembobotan tersebut, artikel-artikel Wikipedia Indonesia tersebut diklasifikasikan dengan metode KNN. Hasil klasifikasi tersebut mengelompokan suatu artikel masuk ke sebuah kelas tertentu. Hasilnya, artikel yang memiliki nilai jarak terkecil dengan kelas yang sudah ditentukan dimasukan pada kelas tersebut. Rancangan sistem yang dibangun ditujukan pada gambar 2., = + + + (3) Dengan:

Text Preprocessing Data Latih Artikel Wikipedia Indonesia Data Uji uji dengan centroid, klasifikasi artikel berdasarkan jarak terdekat dengan centroid. START Case Folding Tokenizing Filtering Vector Term Dokumen Pembobotan TF IDF... Vector Term 1 Vector Term 2 Vector Term 3 Vector Term-n Menentukan Jumlah tetangga terdekat K K Nearest Neighbor Menentukan centroid (rata-rata nilai tetangga terdekat) Sub Sub sub Hasil Klasifikasi Artikel Wikipedia Indonesia... Sub Mencari Jarak data uji dengan centroid Klasifikasi artikel berdasarkan jarak terdekat dengan centroid Pengujian (akurasi kebenaran) Gambar 2. Rancangan Sistem 7. Diagram Alir 7.1 Diagram Alir Text Preprocessing Diagram alir tahap preprocessing merupakan diagram alir yang berisi proses penghilangan tanda baca (tokenization) serta proses penghilangan kata yang tidak penting (stopwords). Proses ini dijelaskan lebih lanjut pada gambar 3. Hasil klasifikasi END Gambar 4.Diagram Alir KNN 8. Implementasi 8.1 Implementasi Basis Data Berikut ini merupakan hasil implementasi basis data: START Input Dokumen Proses mengubah teks menjadi lowercase (Case Folding) Proses penghilangan tanda baca (Tokenizing) Gambar 5. Implementasi Basis Data 8.2 Implementasi Antarmuka Berikut ini merupakan hasil implementasi antarmuka sistem: Proses penghilangan kata tidak penting (Filtering) Dokumen yang telah diprocessing END Gambar 3. Diagram Alir Text Preprocessing 7.2 Diagram Alir KNN Diagram alir Algoritma KNNmerupakan diagram alir yang berisi urutan masukan berupa vektor kata dari masing-masing dokumen yaitu bobot yang dimiliki setiap kata/term, menentukan jumlah tetangga terdekat, menentukan centroid (rata-rata nilai tetangga terdekat), mencari jarak data Gambar 6. Implementasi Antarmuka

9. Uji Coba Untuk menguji metode KNN pada klasifikasi artikel Wikipedia dibutuhkan responden untuk mengoreksi kebenaran suatu artikel Wikipedia. Kebenaran yang dimaksud adalah kebenaran hasil klasifikasi, apakah sudah sesuai pada masing-masing artikel. Langkah pertama dari pengujian ini adalah memilih sub dari masing-masing artikel, kemudian sub akan menampilkan sub sub serta artikel yang ada di dalamnya. Langkah berikutnya adalah koreksi terhadap artikel Wikipedia dalam satu sub. Koreksi tersebut terdapat dua pilihan yaitu benar atau salah. Kemudian artikel yang benar dijumlahkan sehingga mendapatkan jumlah artikel yang benar untuk selanjutnya dihitung menjadi prosentase akurasi kebenaran artikel. 10. Pengujian Text Preprocessing Pada tahap text preprocessing, artikel Wikipedia menjalani proses case folding, tokenizing, dan filtering. Setelah proses tersebut dijalankan, kemudian setiap kata/term dilakukan pembobotan TF IDF sehingga terbentuk vektor kata. Kedua tahap tersebut dieksekusi bersama pada data artikel. Berikut hasil eksekusi dari masing-masing data artikel: Artikel Waktu Eksekusi Waktu Eksekusi TF TF IDF 1-100 35.29 detik 39.916 detik 101-200 36.563 detik 37.519 detik 201-300 42.431 detik 35.739 detik 301-400 35.53 detik 35.689 detik 401-500 35.618 detik 36.226 detik 501-572 29.761 detik 26.852 detik Tabel 1. Pengujian Text Preprocessing Sumber: Pengujian Text Preprocessing 11. PengujianKNN Berdasarkan pengujian sistem yang telah dilakukan, dapat diketahui bahwa sistem pada penelitian ini telah berjalan dengan baik secara fungsional dan menghasilkan output yang diharapkan. Berdasarkan hasil pengujian masingmasing sub, maka dilakukan perhitungan untuk mencari persentase akurasi kebenaran. Berikut ini adalah perhitungan mencari akurasi kebenaran. Akurasi Kebenaran (%) = = 8 = 60% Terdapat faktor-faktor yang mempengaruhi akurasi kebenaran tersebut yaitu data uji diambil secara acak dari file dump Wikipedia, sehingga belum tentu semua data uji dapat masuk ke dalam yang sesuai. Selain itu isi dari masingmasing data uji juga berpengaruh terhadap klasifikasi. Jika judul dari artikel sesuai, namun isinya tidak sesuai maka tidak akan masuk ke dalam sub sub yang sesuai dengan judul artikel. Faktor berikutnya adalah jumlah artikel yang akan dijadikan centroid, jika semakin banyak jumlah artikel maka centroid akan semakin akurat. Sebagai contoh artikel yang berjudul organ pada gambar 5 masuk ke dalam sub sub eropa, sub geografi dan tempattempat,dan geografi. Artikel ini seharusnya masuk kedalam ilmu alam. Namun karena artikel organ memiliki jarak paling dekat dengan centroid sub sub eropa sehingga artikel organ masuk kedalam sub sub eropa. Gambar 7. Contoh Pembahasan Pegujian Untuk Sub sub Eropa, artikel-artikel yang membentuk centroidnya adalah artikel yang berjudul Belanda, Belgia, Jerman. 12. Kesimpulandan Saran Berdasarkan pembahasan dapat ditarik beberapa kesimpulan: (1) Semua data uji telah masuk ke dalam setiap sub sub pada masing-masing sub dan namun tidak semua artikel sesuai dengan sub sub, oleh karena itu diperlukan pengujian manual. (2) Centroid pada masing-maing sub sub terdiri dari tiga buah artikel yang diambil nilai tengahnya kemudian dihitung jarak kedekatan dengan masing-masing data uji. (3) Berdasarkan hasil pengujian manual menunjukkan akurasi kebenaran sebesar 60%. Terdapat faktor-faktor yang mempengaruhi akurasi kebenaran tersebut yaitu data uji diambil secara acak dari file dump Wikipedia, sehingga belum tentu semua data uji dapat masuk ke dalam yang sesuai. Selain itu isi dari masing-masing data uji juga berpengaruh terhadap klasifikasi. Jika judul dari artikel sesuai, namun isinya tidak sesuai maka tidak akan masuk ke dalam sub sub yang sesuai dengan judul artikel. Faktor berikutnya adalah jumlah artikel yang akan dijadikan centroid, jika semakin banyak jumlah artikel maka centroid akan semakin akurat. Daftar Pustaka: Nugroho, Moh Aziz dan Santoso, Heru Agus, 2016. "Klasifikasi Dokumen Komentar Pada Situs

Youtube Menggunakan Algoritma K-Nearest Neighbor (K-NN)". Jurnal Sistem Informasi Purwanti, Endah., 2015. "Klasifikasi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour".e-ISSN 2442-5168. 1(2), 129-138 Samuel, Yoseph. Dkk, 2014. "Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita". Jurnal Informatika. 10(1), 1-15 Turney, P. D. Pantel, dan Patrick. (2010). From Frequency to Meaning: Vector Space Models of Semantics. Journal of Artificial Intelegence Reseach, 37, 141188. Wang, Pu dan Carlotta Domeniconi, 2008. Building Semantic Kernels for Text Classification using Wikipedia. KDD 08 Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining. 713-721.