Klasifikasi Teks Menggunakan k-nn sebuah contoh

dokumen-dokumen yang mirip
Klasifikasi Teks Menggunakan k-nn Contoh Soal

Cosine Similarity (Tf-idf) Denny Setyo R ( ) STBI Kelas C

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

BAB II TINJAUAN PUSTAKA

PENGUKUR SEMANTIC SIMILARITY PADA ARTIKEL WEB DALAM UPAYA PENCEGAHAN PLAGIARISME

BEREBUT DUKUNGAN DI 5 KANTONG SUARA TERBESAR. Lingkaran Survei Indonesia Mei 2014

BAB V KESIMPULAN DAN SARAN

TERANCAMNYA KONVENSI DEMOKRAT: DARI HERO KE ZERO-KAH NASIB DEMOKRAT? Lingkaran Survei Indonesia November 2013

BAB V PENUTUP. masyarakat yang diberikan pada kandidat-kandidat partai politik.

PASKA MUNASLUB: Golkar Perlu Branding Baru? LSI DENNY JA Analis Survei Nasional, Mei 2016

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB I PENDAHULUAN 1.1. Latar Belakang

Pilpres Siapa yang Menang? Bisakah ada dua pemenang di Pilpres? Tidak mungkin. Pemenang Pilpres hanya satu, kalau bukan Prabowo- Hatta ya Jokowi- JK.

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB II LANDASDAN TEORI

ROCCHIO CLASSIFICATION

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

SISTEM TEMU KEMBALI INFORMASI

Head to Head Jokowi-JK Versus Prabowo Hatta Dan Kampanye Negatif. Mei 2014

BAB VI PENUTUP. sebelumnya, dapat disimpulkan bahwa : Faktor Kemenangan koalisi Suharsono-Halim dalam

3 Sukses LSI di Pilpres 2014

Publik Menilai SBY Sebagai Aktor Utama Kemunduran Demokrasi Jika Pilkada oleh DPRD

PILKADA OLEH DPRD DINILAI PUBLIK SEBAGAI PENGHIANATAN PARTAI

DI BALIK POLITIK PENCITRAAN. Oleh. Yoseph Andreas Gual

DAFTAR ISI. Halaman Daftar isi... i Daftar Tabel... iv Daftar Gambar... v

BAB 3 METODOLOGI PENELITIAN

BAB I PENDAHULUAN. secara langsung sejak sistem otonomi daerah diterapkan. Perubahan mekanisme

BAB II TINJAUAN PUSTAKA

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

BAB III METODE PENELITIAN. penelitian dikarenakan dari 4 Kabupaten/Kota di DIY. yang memiliki basis masa tidak sebanyak partai pesaingnya.

PENGHITUNGAN PEROLEHAN KURSI PARTAI POLITIK DALAM PEMILIHAN UMUM DEWAN PERWAKILAN RAKYAT DAERAH KABUPATEN/KOTA TAHUN 2014

BAB VII PENUTUP. pendeskripsian, uji Chi-square dan uji koefisien kontingensi maka peneliti dapat

BAB I PENGANTAR. keterlibatan masyarakat dalam berpartisipasi aktif untuk menentukan jalannya

Headline Berita Hari Ini Periode: 30/05/2014 Tanggal terbit: 30/05/2014

BAB II LANDASAN TEORI. karya rekam secara profesional dengan sistem yang baku guna memenuhi

BAB I PENDAHULUAN. dimana adanya pemberian kebebasan seluas-luasnya. untuk berpendapat dan membuat kelompok. Pesatnya

BAB I PENDAHULUAN. langsung oleh rakyat. Pemilihan umum adalah proses. partisipasi masyarakat sebanyak-banyaknya dan dilaksanakan

BAB 1 Vektor. Fisika. Tim Dosen Fisika 1, Ganjil 2016/2017 Program Studi S1 - Teknik Telekomunikasi Fakultas Teknik Elektro - Universitas Telkom

BAB I PENDAHULUAN. Pada Juni 2005, rakyat Indonesia melakukan sebuah proses politik yang

BAB I PENDAHULUAN. Dunia perpolitikan di Indonesia mengalami perkembangan pesat bila ditinjau dari segi

BAB III METODOLOGI PENELITIAN

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB I PENDAHULUAN. rakyat indonesia yang berdasarkan pancasila dan undang undang dasar negara

BAB III ANALISA DAN PERANCANGAN

MODEL C 1 DPR UKURAN PLANO

ISU KOALISI PARTAI DI MEDIA INDONESIA

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JK: Tradisi Golkar di Pemerintahan

Mayoritas Publik Ingin DPR Tandingan Segara Bubarkan Diri. LSI DENNY JA November 2014

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

IMPLEMENTASI METODE K-NEAREST NEIGHBOUR DENGAN PEMBOBOTAN TF.IDF.ICF UNTUK KATEGORISASI IDE KREATIF PADA PERUSAHAAN

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN. wakil presiden dipilih oleh MPR dan anggota-anggotanya dipilih melalui

PUBLIK MAKIN KHAWATIR DENGAN KINERJA KABINET DI TAHUN POLITIK

Diferensial Vektor. (Pertemuan III) Dr. AZ Jurusan Teknik Sipil Fakultas Teknik Universitas Brawijaya

2014 : PEMERINTAHAN GOLKAR ATAU PEMERINTAHAN PDIP? Lingkaran Survei Indonesia Februari 2014

2. Usia Responden : tahun tahun tahun ke atas

BAB 3 LANDASAN TEORI

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB I PENDAHULUAN. praktek politik masa lalu yang kotor. Terlepas dari trauma masa lalu itu, praktek

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

PENGENALAN PUBLIK TENTANG PARTAI POLITIK: BAGAIMANA KUALITAS PILEG 2014?

HARAPAN & ANCAMAN JOKOWI - JK

BAB III METODELOGI PENELITIAN

Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering

INTELEGENSI BUATAN. Mesin Pembelajaran (Machine Learning)

STRATEGI PEMENANGAN PASANGAN CALON BUPATI DAN WAKIL BUPATI CAMPURAN PURI DAN NONPURI DI GIANYAR

ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE

KAMPANYE NEGATIF DAN PREDIKSI HASIL PILEG Lingkaran Survei Indonesia April 2014

BAB I PENDAHULUAN. pemerintahan yang digunakan dalam suatu negara. Indonesia adalah salah satu

PENGUNAAN METODE COSINESIMILARITY PADA SISTEM PENGELOMPOKAN KERJA PRAKTEK, TUGAS AKHIR DAN SKRIPSI

SISTEM PENILAIAN ESAI OTOMATIS PADA E-LEARNING DENGAN METODE COSINE SIMILARITY

Klasifikafi Dokumen Temu Kembali Informasi dengan K-Nearest Neghbour. Information Retrieval Document Classified with K-Nearest Neighbor

Matriks. Pada Kelas X, Anda telah mempelajari cara menyelesaikan sistem

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB 1 PENDAHULUAN. 1.1.Latar Belakang

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

Blunder Politik Demokrat???? Kasus Nazaruddin dan Perubahan Dukungan Partai. Analisis Survei Nasional Lingkaran Survei Indonesia (LSI) Juni 2011

KRISIS CAPRES DAN CAWAPRES PARTAI ISLAM : SIAPAKAH PASANGAN CAPRES- CAWAPRES TERKUAT PEMILU 2014? Lingkaran Survei Indonesia Maret 2013

MUNAS GOLKAR DI MATA PUBLIK. LSI DENNY JA Desember 2014

II. TINJAUAN PUSTAKA DAN KERANGKA PEMIKIRAN

BAB 1 PENDAHULUAN UKDW

BAB 3 ANALISA DAN PERANCANGAN

I. PENDAHULUAN. memilih sebuah partai politik karena dianggap sebagai representasi dari agama

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

Penerapan Algoritma K-Nearest Neighbor pada Information Retrieval dalam Penentuan Topik Referensi Tugas Akhir

PT. Universal Broker Indonesia 1 MARKET OUTLOOK MEI: PILPRES. Oleh: Satrio Utomo PT. Universal Broker Indonesia. 26 April 2014

BAB I PENDAHULUAN. A. Latar Belakang

PKB 4,5%, PPP 3,4%, PAN 3,3%, NASDEM 3,3%, PERINDO

LEMBAR AKTIVITAS SISWA INDUKSI MATEMATIKA

Kebangkitan Seminggu Terakhir. Head to Head Jokowi-JK vs Prabowo-Hatta

KLASTERING BERITA ONLINE TENTANG BENCANA DENGAN ALGORITMA SINGLE PASS CLUSTERING Herny Februariyanti, Eri Zuliarso, Mardi Siswo Utomo

KEPERCAYAAN TERHADAP DPR DI TITIK TERENDAH. LSI DENNY JA Analis Survei Nasional, Desember 2015

Hasil Kali Titik, Hasil Kali Silang, dan Hasil Kali Tripel

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

Tiga Isu Menanti Kabinet Jokowi. LSI DENNY JA Oktober 2014

BAB 1 PENDAHULUAN. Universitas Pendidikan Indonesia repository.upi.edu perpustakaan.upi.edu

Transkripsi:

Klasifikasi Teks Menggunakan k-nn sebuah contoh Lunix96 at {yahoo.com, gmail.com} Diketahui terdapat 8 dokumen (D1 s.d D8) sebagai berikut: D1. Tokoh politik dari berbagai partai mengadakan rapat untuk membahas koalisi baru menjelang pemilu 2014 dan beberapa pilkada 2012 dan 2013. D2. Partai politik sudah tidak dapat dipercaya. Sebagian besar partai mengutamakan kepentingan partai daripada kebutuhan rakyat D3. Partai demokrat memenangkan pemilu 2009 karena figur SBY. Partai Golkar berusaha menang pada 2012. Pertandingan 2 partai ini akan seru. D4. Pertandingan pertama antara Persema dan Persebaya diadakan di Malang. Ini akan menguntungkan tuan rumah D5. Sebagian besar wasit di Indonesia sulit dipercaya. Beberapa pertandingan sepakbola sering tidak adil. Tim nasional perlu pembenahan Total. D6. Suap menyuap sudah lazim di negeri Ini. Pemilu ada suap. Pilkada juga suap. Mungkin pula saat Pilpres. D7. Beberapa pertandingan sepakbola yang dilakoni persebaya pada masa kampanye Pilkada 2010 Kota surabaya akan ditunda. D8. Sepakbola Indonesia memang belum bangkit. Manajemen tim, pertandingan dan tiket perlu ditingkatkan, bukan hanya fokus pada kemenangan tim. Jika dokumen-dokumen teks tersebut dikelompokkan (classification) ke dalam dua kelas, C1 (Politik) dan C2 (Olahraga), menggunakan kecerdasan manusia, misalnya tiap kelas hanya boleh beranggotakan 3 dokumen, maka kita dapat memperoleh hasil sebagai berikut: C1 akan beranggotakan D1, D2 dan D3 C2 akan beranggotakan D4, D7 dan D8 Pada k-nn, fase ini dinamakan fase manual atau training. Kita memilih beberapa dokumen contoh (sample) dan mengelompokkannya secara manual ke dalam kelas-kelas yang telah didefinisikan. Pertanyaan. Menggunakan k-nn, tentukan kelas dari dokumen D5! Langkah 1. Preprocessing terhadap semua (terdapat 7) dokumen yang terlibat, yaitu D5, D1, D2, D3, D4, D7 dan D8. 1

Langkah 1a: Lakukan tokenisasi, stop words removal dan stemming. Hasilnya diperlihatkan pada tabel berikut: Dokumen Term yang mewakili dokumen D5 besar wasit indonesia sulit percaya tanding sepakbola adil tim nasional benah total D1 tokoh politik partai rapat bahas koalisi baru jelang pemilu 2014 pilkada 2012 2013 D2 partai politik percaya besar partai utama penting partai butuh rakyat D3 partai demokrat menang pemilu 2009 figur sby partai golkar usaha menang 2012 tanding partai seru D4 tanding pertama persema persebaya malang untung rumah D7 tanding sepakbola persebaya kampanye pilkada 2010 kota surabaya tunda D8 sepakbola indonesia bangkit manajemen tim tanding tiket tingkat fokus menang tim Langkah 1b. Tentukan bobot untuk setiap term dari 7 dokumen yang terlibat. Total dokumen ada 8. Dokumen yang telah terklasifikasi ada 6 dan yang akan diklasifikasikan (D5) sehingga total yang terlibat adalah 7. Dokuman D6 tidak dilibatkan, belum terklasifikasi dan dapat dijadikan obyek pada klasifikasi berikutnya. 2

3

Langkah 2: Hitung kemiripan vektor dokumen D5 dengan setiap dokumen yang telah terklasifikasi (D1, D2, D3, D4, D7 dan D8). Kemiripan antar dokumen dapat menggunakan cosine similarity. Rumusnya adalah sebagai berikut: cos ij Langkah 2a: Hitung hasil perkalian skalar antara D5 dan 6 dokumen yang telah terklasifikasi. Hasilnya perkalian dari setiap dokumen dengan D5 dijumlahkan (sesuai pembilang pada rumus di atas) Langkah 2b: Hitung panjang setiap dokumen, termasuk D5. Caranya, kuadratkan bobot setiap term dalam setiap dokumen, jumlahkan nilai kuadrat tersebut dan kemudian akarkan. Sisi kiri dari tabel berikut ini mewakili langkah 2a dan sisi kanan memperlihatkan langkah 2b. d k k d 2 ik ik d d k jk 2 jk 4

5

Langkah 2c: Terapkan rumus cosine similarity. Hitung kemiripan D5 dengan D1, D2 dan seterusnya sampai dengan D8. Cos (D5, D1) = 0/(2,458*2,652) = 0,000 Cos (D5, D2) = 0,3/(2,458*2,528) = 0,048 Dan seterusnya. Cos (D5, D8) = 1,04/(2,458*2,312) = 0,184 Hasil perhitungan tersebut diperlihatkan tabel berikut: D1 D2 D3 D4 D7 D8 0,000 0,048 0,003 0,004 0,031 0,184 Langkah 3: Urutkan hasil perhitungan kemiripan, diperoleh: 1 2 3 4 5 6 D8 D2 D7 D4 D3 D1 Langkah 4: Ambil sebanyak k (k=4) yang paling tinggi tingkat kemiripannya dengan D5 dan tentukan kelas dari D5. Hasilnya: D8 D2 D7 D4 Dokumen D5 terklasifikasi ke dalam kelas? Pilih kelas yang paling banyak kemunculannya! Apakah C1? Atau C2? Ternyata, untuk k=4, C1 diwakili hanya oleh 1 dokumen yaitu D2, sedangkan C2, diwakili 3 dokumen, yaitu D8, D7 dan D4. Kemanakah D5 berlabuh? D5 terklasifikasi ke kelas C2 (Olahraga). 6

Kasus Khusus: Bagaimana jika nilai cosim di atas seperti ini: D1 D2 D3 D4 D7 D8 0,02 0,04 0,003 0,004 0,03 0,184 Jika di ambil 4 (k = 4) dokumen paling dekat dengan D5, diperoleh D8, D2, D1, D7. Kelas C1 dan C2, masing-masing diwakili oleh 2 dokumen. Ke kelas manakah D5 terklasifikasi? Pada kasus demikian, ada beberapa solusi yang dapat ditempuh, yaitu: 1. Kurangi atau tambahkan k (sebesar 1). Jika k=3, maka D5 masuk ke kelas C2, diwakili oleh dokumen D8 dan D7. Jika k=5, maka D5 masuk ke kelas C2, diwakili oleh dokumen D8, D7 dan D4. Jika k=1, maka D5 masuk ke kelas C2, diwakili oleh hanya dokumen D8. 2. K tetap 4, tidak berubah. Jumlahkan tingkat kemiripan dari setiap dokumen untuk kelas yang sama. Diperoleh: Nilai C1 = nilai kemiripan (D5, D1) + nilai kemiripan (D5, D2) = 0,035 + 0,04 Nilai C2 = nilai kemiripan (D5, D8) + nilai kemiripan (D5, D7) = 0,184 + 0,03 Nilai C2 lebih besar. D5 harus masuk C2 Kesimpulan: So, D5 masuk ke dalam C1 atau C2? Jika melihat isi dari D5 maka kita dapat memutuskan bahwa isinya terkait erat dengan olahraga dan harusnya masuk ke dalam C2 (Olahraga), bukan C1, meskipun D5 juga mengandung term-term yang berhubungan dengan Politik (C1). Pada banyak kasus, jika pemilihan awal (k=4) tidak memberikan solusi klasifikasi, maka dilakukan pengurangan atau penambahan k (sebesar satu). Pada pendekatan ini (sebagaimana di atas), D5 terklasifikasi ke dalam C2 (Olahraga). Pada banyak penelitian, nilai k adalah 3, 4 atau 5, dan terbukti memberikan hasil yang lebih baik. 7