Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

Transkripsi

1 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita Yoseph Samuel, Rosa Delima, Antonius Rachmat 1) Program Studi Teknik Informatika Universitas Kristen Duta Wacana, Yogyakarta 1) Abstract This research is about document classification using K-Nearest Neighbor method. We will develop a classification system of news from several source websites. The research will focused on the subtopics of the news articles. This system is built using K-Nearest Neighbor as the main algorithm. Using stemming, stop words and tokenizing in the preprocessing process, it would be easier for the system to classify the documents and it also will get terms from the entire documents inside. In this research TF-IDF method will be used for weighting terms and an addition of word count bonus for IDF will make the classification more accurate. We also use a Decision Rule as the substitute for K- Nearest Neighbor majority vote. By using Decision Rule, the calculation will use Euclidean Distance similarity method. In this system, the k for K-Nearest Neighbor value will be test at 3, 5 and 7. For testing the system, we will analyzee the k value by using or without using Decision Rule. The result of this research is using Decision Rule in K-Nearest Neighbor algorithm will increase accuracy of news classification compared without using Decision Rule. The system has 89.36% accuracy rate. Keywords: K-Nearest Neighbor, Decision Rule, TF-IDF, News Classification System 1. Pendahuluan Beberapa surat kabar online telah membuat pengklasifikasian beritanya per topik-topik berita sehingga membuat pencarian berita dipermudah. Bagi pembaca berita, klasifikasi topic-topik tersebut memberikan kemudahan agar saat pencarian berita, berita dapat dicari melalui kategori topik yang lebih detail. Pembuatan sistem klasifikasi topik berita otomatis berdasarkan suatu algoritma tertentu sangat dibutuhkan untuk mempercepat proses dan menggantikan proses manual yang selama ini dilakukan. Algoritma K-Nearest Neighbor sangat umum digunakan untuk pengkategorisasian teks. Hal tersebut diketahui karena algoritmanya yang mudah dan efisien untuk klasifikasi teks. Bukan hanya mudah dan efisien, sifat dari algoritma K-Nearest Neighbor sendiri bersifat self-learning, dimana 1

2 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: 1-15 algoritma ini dapat mempelajari struktur data yang ada dan menkategorikan dirinya sendiri. Biasanya, K-Nearest Neighbor selalu menggunakan majority vote sebagai landasan penentuan dimana sebuah dokumen diklasifikasi. Permasalahannya adalah jika terdapat sebuah kategori dimana kategori tersebut sudah mempunyai banyak dokumen, maka kemungkinan besar yang terjadi jika terdapat dokumen baru yang mendekati kemiripan dengan kategori yang dimaksud akan ikut masuk dalam kategori itu karena penggunaan sistem majority vote [5]. Pada penelitian ini akan dilakukan penggantian penggunaan majority vote menjadi Decision Rule dengan harapan agar penggunaan algoritma K-Nearest Neighbor dapat dimaksimalkan Pengambilan berita sebagai data training diambil dari 3 (tiga) website yaitu: bbc.com, cnn.com, dan foxnews.com. Berita tersebut akan dikategorikan berdasarkan topik olahraga yang terbagi menjadi 7 (tujuh) subtopik Soccer, Formula 1, Basketball, Motorsport, Baseball, Tennis, dan NFL. Berita yang digunakan sebagai data training sejumlah 280 berita. Untuk pengujian akan diambil sebanyak 95 berita baru yang bersumber dari NYTIMES, CBSSPORT, dan THE GUARDIAN. 2. Landasan Teori 2.1. TF-IDF Tahapan awal Text Mining sebelum dilakukan proses TF-IDF adalah tahap tokenisasi dan stop word removal [7]. Berdasarkan [4] dalam jurnalnya yang berjudul "Aplikasi Pengkategorian Dokumen dan Pengukuran Tingkat Similaritas Dokumen Menggunakan Kata Kunci Pada Dokumen Penulisan Ilmiah dari Universitas Gunadarma, pembobotan sebuah term yang spesifik dikenal sebagai IDF (Inverse Document Frequency). Pembobotan dilakukan berdasarkan pada penomoran dokumen, dimana dari tiap dokumen, tiap kata yang digunakan dibobotkan berdasarkan banyaknya kata dari tiap dokumen. Semakin banyak kata dalam dokumen, semakin besar bobot kata tersebut, begitu pula sebaliknya. TF-IDF (Term Frequency-Inverse Document Frequency) merupakan pembobotan sebuah kata dalam satu dokumen agar dapat diproses lebih lanjut oleh beberapa algoritma lain yang membutuhkan. TF merupakan Term Frequency dari sebuah dokumen. Penggunaan TF-IDF ini akan menggunakan word count bonus sebagai hasil dari IDF. Jika IDF sudah didapati, maka akan ditambah dengan 1. (1) Dimana : d = dokumen ke-d 2

3 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) t W tf D = kata ke-t dari kata kunci = bobot dokumen ke-d terhadap kata ke-t = banyaknya kata yang dicari pada sebuah dokumen = total dokumen 2.2. Algoritma K-Nearest Neighbor Algoritma K-Nearest Neighbor merupakan sebuah algoritma yang sering digunakan untuk klasifikasi teks dan data. Penggunaan K-Nearest Neighbor mempunyai sifat self-learning dimana jika semakin banyak dokumen, maka makin banyak pula sumber yang dapat digunakan untuk dibandingkan. K- Nearest Neighbor berarti mencari tetangga yang paling dekat dengan sets yang akan di klasifikasi [5]. Contoh : Gambar 1. K-Nearest Neighbor dengan 2 (dua) neighbor Dikutip dari : "Improved k-nn for text classification" [5] 1. Dari gambar 1 di atas dilihat bahwa dokumen uji d (berbentuk lingkaran) diharapkan memiliki kelas yang sama dengan dokumen latih yang ada di sekitarnya. 2. Probabilitas dari gambar 1 di atas adalah sebagai berikut : 3

4 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: 1-15 P(segitiga dalam lingkaran segitiga) = 2/3 P(biru dalam lingkaran kotak) = 1/3 3. Penggunaan nilai k sebagai nilai jumlah kluster biasanya menggunakan k dengan nilai ganjil, misal k=1 k=3 k=5 4. Penghitungan distance yang dicari akan menggunakan Euclidean Distance [5]. 5. Untuk mengukur bobot vote, K-Nearest Neighbor biasa menggunakan majority vote atau cosine [5]. Algoritma K-Nearest Neighbor merupakan algoritma yang mempunyai kebiasaan dimana jika sudah ada banyak dokumen yang masuk kedalam 1 kategori, maka dokumen baru yang muncul dapat dengan mudah masuk kedalam majority vote yang ada. Maka dari itu penulis berusaha mencoba untuk menggunakan Improved K-Nearest Neighbor with Decision Rule. Berikut adalah cara penghitungan similarity dokumen menggunakan cosine yang diberikan oleh [5] : (2) Dimana Q adalah dokumen tes, D adalah dokumen training yang relevan dengan dokumen tes dan w adalah term frequency dari keyword yang ada. Cosine biasanya digunakan untuk perhitungan dalam k-nearest Neighbor untuk menghitung distance yang sama dilakukan oleh Euclidean Distance satu dimensi : Dimana i,j adalah records yang sudah ada dan m sebagai banyaknya variabel data. x merepresentasikan nilai dari record i,k dan j,k Decision Rule Decision Rule yang diberikan oleh [5] dalam jurnalnya menyatakan bahwa jika ada satu kelas yang mempunyai jumlah dokumen yang jauh lebih banyak dibandingkan dokumen lain, maka dokumen uji baru yang akan masuk bisa salah dalam klasifikasinya. Dimisalkan menggunakan Decision Rule awal k-nn. Maka dokumen tersebut akan masuk kedalam kelas yang jumlahnya banyak. Maka dari itu, Decision Rule diubah agar dapat meningkatkan keakuratan bagi k-nn. Memberikan bobot yang lebih besar kepada kelas dengan jumlah dokumen yang banyak dalam top-k buffer dan menghilangkan dokumen yang (3) 4

5 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) jauh dari dokumen uji. Setelah mendapatkan akhir dari top-k buffer, barulah dihitung menggunakan Euclidean Distance dari dokumen uji dengan top-k buffer. Berikut adalah formula yang digunakan oleh [5] sebagai formula bagi decision rule yang diberikan : (4) Dimana : C j A B kelas C j = tiap kelas j dalam masing - masing klasifikasi = banyaknya kelas di array A[] yang termasuk kedalam kelas C j = euclidean distance dari dokumen yang termasuk kedalam 3. Hasil dan Analisis Sistem 3.1. Pemrosesan Berita Berita training yang sudah siap dimasukan ke dalam database harus memenuhi syarat bahwa berita tersebut sudah masuk ke dalam salah satu subtopik yang telah diberikan pada tiap sumber. Hasil berita training yang didapat akan diuji dengan berita baru yang masih belum mendapatkan subtopik berita. Diagram alir sistem secara keseluruhan dapat dilihat pada gambar 2 sebagai berikut: 5

6 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: 1-15 Gambar 2. Diagram Alir Sistem Jika semua berita training sudah masuk kedalam database yang dapat dilihat pada gambar 3, maka akan dipreproses dengan tokenizing, stopwords, dan stemming. Setelah mendapat hasil term, maka akan diberlakukan pembobotan pada tiap term. Pembobotan dilakukan dengan TF-IDF (lihat rumus [1]). Setelah TF-IDF dilakukan, maka akan diberlakukan perhitungan cosine dan euclidean distance. 6

7 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) Gambar 3. Skema Diagram Database Setelah mendapatkan hasil, maka berita dapat diketahui hasil subtopiknya. Penggunaan Decision Rule sebagai salah satu perhitungan dianggap akan menambahkan persentase dari hasil K-Nearest Neighbor. Program yang dibangun dibuat menggunakan Visual Basic.NET 2010 dan gambar 4 di bawah ini adalah contoh implementasi penambahan berita pada sistem yang dibangun. Gambar 4. Tampilan Program Bagian Tambah Berita 7

8 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: Analisis Sistem Pada bagian ini akan dilakukan beberapa analisis, dan pengujian terhadap sistem dengan cara melihat hal - hal yang mempengaruhi hasil dari proses klasifikasi yang dilakukan oleh algoritma K-Nearest Neighbor dengan menggunakan Decision Rule dan algoritma K-Nearest Neighbor tanpa menggunakan Decision Rule. Sesuai dengan penjelasan di bagian pendahuluan, berita training diambil 40 per subtopik. Seluruh berita training berjumlah 7 x 40 berita yaitu total 280 berita training yang terbagi berdasarkan sumber dan subtopik yang telah disebutkan sebelumnya. Total keseluruhan berita baru yang akan diuji adalah 94 berita. Pengujian terhadap berita baru akan dibandingkan dari persentase keakuratan hasil klasifikasi dari tiap sumber sehingga dapat diketahui sumber mana yang klasifikasinya paling baik. Pengujian juga akan dilakukan untuk mencari term mana saja yang menjadi titik tumpu dari berita tersebut sehingga dapat masuk ke dalam subtopik yang ada. Tabel 1, 2, dan 3 di bawah ini merupakan hasil dari klasifikasi sistem yang menggunakan perhitungan K-Nearest Neighbor. Diasumsikan bahwa berita sumber adalah benar, maka persentase yang didapat sebagai berikut: diketahui 3 berita sumber berita yang mempunyai cara pengklasifikasian yang berbeda beda dan dapat terbukti bahwa ada beberapa sumber yang tidak cocok untuk dilakukan klasifikasi menggunakan K-Nearest Neighbor. Tabel 1 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan k = 3 Sumber Benar Salah Total Persentase BBC % CNN ,66% FOXNEWS ,33% OTHER ,67% Total ,29% 8

9 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) Dari tabel 1 di atas dapat terlihat bahwa hasil pengklasifikasian menunjukan angka yang sudah cukup memuaskan. Tabel 1 tersebut merupakan hasil klasifikasi hanya menggunakan K-Nearest Neighbor dan menggunakan k = 3. Percobaan juga dilakukan terhadap k = 5 dan k = 7. Tabel 2 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan k = 5 Sumber Benar Salah Total Persentase BBC % CNN ,66% FOXNEWS ,33% OTHER ,67% Total ,29% Gambar 5. Cuplikan Tabel Hasil Klasifikasi k=5 9

10 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: 1-15 Gambar 6. Cuplikan Tabel Hasil Klasifikasi k=3 Dari tabel 2 di atas, ternyata setelah dilakukan klasifikasi menggunakan k = 5, tidak ada perubahan signifikan yang terjadi pada sumber berita. Jika dilihat pada cuplikan hasil klasifikasi sesuai gambar 5, perubahan terjadi pada berita yang ada pada sumber OTHERS, beberapa berita memiliki kesamaan tetapi ada beberapa berita dimisalkan pada id ke-82 dimana jika k = 3 (Gambar 6), subtopik berita tersebut adalah basketball, tapi pada saat k = 5 subtopik terganti menjadi F1, jika dilihat dari vote yang ada, pada k = 3 mempunyai 2 vote untuk basketball dan 1 vote untuk F1. Tapi pada saat k bertambah menjadi 5, dua berita tambahan memberikan vote kepada F1 dimana F1 sendiri akan menjadi pemenang vote tersebut. 10

11 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) Tabel 3 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan k = 7 Sumber Benar Salah Total Persentase BBC ,33% CNN % FOXNEWS ,33% OTHER ,59% Total ,23% Setelah diketahui hasil akhir dari ketiga k dari table 1, 2, dan 3, maka dapat disimpulkan bahwa nilai k tidak banyak berpengaruh pada hasil akhir K-Nearest karena persentase keakuratan rata-rata masih diatas 80% (tergolong baik). Berikut akan ditampilkan hasil klasifikasi pada k yang sama tetapi menggunakan Decision Rule sebagai metode tambahan dalam uji coba agar hasil dapat lebih baik. Hasil klasifikasi dapat dilihat lebih lanjut pada tabel 4, 5, dan 6. Tabel 4 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan Decision Rule k = 3 Sumber Benar Salah Total Persentase BBC % CNN ,66% FOXNEWS ,33% OTHER ,71% Total ,36% 11

12 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: 1-15 Tabel 5 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan Decision Rule k = 5 Sumber Benar Salah Total Persentase BBC % CNN ,66% FOXNEWS ,33% OTHER ,59% Total ,17% Tabel 6 Persentase Keakuratan : Algoritma K- Nearest Neighbor dengan Decision Rule k = 7 Sumber Benar Salah Total Persentase BBC ,33% CNN ,33% FOXNEWS ,33% OTHER ,63% Total ,23% Dari tabel 4, 5, 6 didapati bahwa ada penurunan persentase keakuratan pada table 5 dan 6, juga terdapat kenaikan persentase keakuratan dari tabel 4. Akhirnya pada tabel 7 ditulis kesimpulan dari hasil analisis keenam tabel sebelumnya. 12

13 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) Tabel 7 Persentase Keakuratan : Hasil Keakuratan Sumber K = 3 K = 5 K = 7 KNN 88,29% 88,29% 87,23% KNNWDR 89,36% 86,17% 87,23% Dari tabel 7 di atas, persentase paling besar didapat pada k = 3, menggunakan K-Nearest dengan Decision Rule. Penggunaan k yang lebih kecil memungkinkan sistem klasifikasi tidak ambigu untuk mencari hasil klasifikasi yang dihasilkan. Dengan penggunaan Decision Rule sebagai pengganti majority vote ternyata mampu meningkatkan keakuratan sebesar hamper sekitar 2%. Hasil ini memang kecil dan kurang memuaskan karena hanya menggunakan algoritma K-Nearest Neighbor saja sudah mendapatkan hasil yang cukup baik, mencapai lebih dari 88% tingkat keakuratan. Pada tabel 8 ditampilkan beberapa kata yang sangat mempengaruhi hasil perhitungan klasifikasi karena tingginya frekuensi kemunculannya. Tabel 8 5 term yang paling banyak muncul pada berita training term DF season 190 time 169 team 163 game 158 win 151 Didapati term season, time, team, game dan win merupakan term yang paling banyak muncul dari 280 berita training. Dari data tersebut dapat disimpulkan bahwa kata - kata tersebut merupakan kata umum yang dapat digunakan oleh semua subtopik yang ada. Dari term tersebut, setiap berita baru akan diproses dan melalui term - term yang sudah ditetapkan dan hasil yang didapat juga cukup memuaskan. 13

14 Jurnal Informatika, Vol. 10 No. 1, Juni 2014: KESIMPULAN Berdasarkan hasil penelitian yang dilakukan maka dapat disimpulkan : 1. Penggunaan K-Nearest Neighbor sebagai klasifikasi menunjukan persentasi yang baik, dengan nilai k = 3, menunjukan hasil persentase 88,29%. Dari k yang sama, digunakan Decision Rule yang ada dan persentase hasil akhir dari keakuratan K-Nearest Neighbor dengan Decision Rule adalah 89,36%. Dari hasil tersebut dapat disimpulkan menggunakan k = 3 merupakan k yang paling tinggi keakuratannya dalam K-Nearest Neighbor maupun K-Nearest Neighbor with Decision Rule. 2. Penggunaan Decision Rule hanya akan menambah keakuratan sekitar 2% dan kurang mampu memaksimalkan performa K-Nearest Neighbor sendiri. Algoritma K-Nearest Neighbor saja sudah memberikan hasil keakuratan yang baik sekitar 88%. 3. TF.IDF selalu akan digunakan sebagai pembobotan dalam K-Nearest Neighbor dengan diingat bahwa terdapat word count bonus dimana hasil IDF akan ditambah dengan 1. Selain itu penggunaan Euclidean Distance sebagai Decision Rule merupakan metode yang dapat meningkatkan hasil klasifikasi. Daftar Pustaka [1] Francis, A.L., FCAAS, MAAA. (2006). Taming Text : An introduction to Text Mining. Casuality Acutuarial Society Forum [2] Grosman, A.D., & Frieder, ). (2004). Information Retrieval : Algorithms and Heuristics. Netherland : Springer, Inc [3] Han, E., Karypis, & Kumar. (2001) Text Categorization Using Weight Adjusted K-Nearest Neighbor Classification. Journal Department of Computer Science and Engineering Army HPC Research Center. University of Minnesota. [4] Herwansyah, A. (2009). Aplikasi Pengkategorian Dokumen dan Pengukuran Tingkan Similaritas Dokumen Menggunakan Kata Kunci pada Dokumen Penulisan Ilmiah. Jurnal Sistem Informasi. Universitas Gunadarma. [5] Miah, M. (2009). Improved k-nn Algorithm for Text Classification. Journal Department of Science and Engineering. University of Texas. 14

15 Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita (Yoseph Samuel, Rosa Delima, Antonius Rachmat) [6] Robertson, S. (2004). Understanding Inverse Document Frequency : On Theorethical Argument for IDF. Journal of Documentation 60 no. 5, pp Cambridge. [7] Weiss, M.S., Indurkhya, Zhang & Damerau. (2005). Text Mining : Predictive Methods for Analyzing Unstructured Information. New York: Springer, Inc.. 15