EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

dokumen-dokumen yang mirip
PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB II TINJAUAN PUSTAKA

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PENDAHULUAN. 1.1 Latar Belakang

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

Kata kunci : Data mining, text mining, clustering, agglomerative hierarchical clustering, single linkage, summarize

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB I PENDAHULUAN 1.1. Latar Belakang

Penerapan Algoritma K-Means untuk Clustering

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

BAB III METODOLOGI PENELITIAN

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

BAB III METODOLOGI PENELITIAN

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

BAB I PENDAHULUAN. 1.1 Latar Belakang

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

BAB 2 TINJAUAN PUSTAKA

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

BAB II TINJAUAN PUSTAKA

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

BAB II LANDASAN TEORI

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

1.5 Metode Penelitian

BAB I PENDAHULUAN 1.1 Latar Belakang

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

BAB 3 LANDASAN TEORI

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW BAB I PENDAHULUAN

METODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami

BAB I. Pendahuluan. 1. Latar Belakang Masalah

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

BAB I PENDAHULUAN. Pada umumnya pembaca ingin mendapatkan rangkuman suatu artikel dengan cepat

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. ilmu tertentu dengan menggunakan kaidah-kaidah yang berlaku dalam bidang

Jurnal Politeknik Caltex Riau

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

BAB I PENDAHULUAN. yang digunakan dalam melakukan pertukaran pesan melalui perangkat mobile. pesan pendek Non-Teks (Katankar and Thakare, 2010).

BAB I PENDAHULUAN Latar Belakang

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

ROCCHIO CLASSIFICATION

BAB II TINJAUAN PUSTAKA

DETEKSI KESESUAIAN BIDANG MINAT TERHADAP PROPOSAL TUGAS AKHIR MAHASISWA STUDI KASUS : MAHASISWA SI UKDW

SISTEM TEMU KEMBALI INFORMASI

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

BAB 3 LANDASAN TEORI

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

BAB I PENDAHULUAN. memberikan dampak yang luas dalam bagaimana manusia menjalani hidupnya.

BAB II LANDASAN TEORI

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

PERANCANGAN SISTEM PENDETEKSI PLAGIARISME TERHADAP TOPIK PENELITIAN MENGGUNAKAN METODE K-MEANS CLUSTERING DAN MODEL BAYESIAN

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

Implementasi Metode K-Nearest Neighbor dengan Decision Rule untuk Klasifikasi Subtopik Berita

BAB II LANDASAN TEORI

Clusterisasi Dokumen Web (Berita) Bahasa Indonesia Menggunakan Algoritma K-Means

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

PENERAPAN ALGORITMA K-MEANS UNTUK CLUSTERING DOKUMEN E-JURNAL STMIK GI MDP

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR

IMPLEMENTASI METODE K-NEAREST NEIGHBOR DENGAN DECISION RULE UNTUK KLASIFIKASI SUBTOPIK BERITA

BAB III ANALISA DAN PERANCANGAN SISTEM

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB II TINJAUAN PUSTAKA

BAB IV ANALISA DAN PERANCANGAN

BAB I PENDAHULUAN I-1

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

BAB 1 PENDAHULUAN Latar Belakang

ANALISIS KLASTERING LIRIK LAGU INDONESIA

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

Transkripsi:

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik Negeri Malang Email: 1 afriyoselaputri@gmail.com, 2 faisal.polinema@gmail.com, 3 ridwan@polinema.ac.id Abstrak Informasi menjadi suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi. Salah satu sumber informasi tersebut adalah situs berita daring yang berisi artikel berita dengan topik yang berbeda. Dengan banyaknya jumlah artikel berita dengan berbagai macam topik maka proses pengelompokan tersebut menjadi sulit dilakukan dan membutuhkan waktu yang lama. Oleh karena itu, dibutuhkan sistem yang dapat mengelompokkan artikel berita secara otomatis agar proses pengelompokkan lebih mudah dan cepat. Ekstraksi fitur situs berita online bertujuan mengelempokkan artikel berita secara otomatis dan mendapatkan artikel yang populer dalam jangka waktu tertentu. Penelitian ini menggunakan tahapan text preprocessing untuk pengolahan teks dilanjutkan dengan pembobotan TF IDF pada masing-masing artikel berita sehingga terbentuk vector term. Berdasarkan pembobotan tersebut, artikel-artikel berita tersebut dikelompokkan dengan metode K- Means Clustering. Hasil pengelompokkan (clustering) tersebut menunjukkan jumlah populasi artikel setiap cluster. Proses pemilihan judul artikel berdasarkan kedekatan euclidean distance. Aplikasi ini telah diuji dengan membandingkan keluaran sistem dengan hasil keputusan manual. Pengujian tersebut dilakukan dengan masukan persentase jumlah cluster yang berbeda. Berdasarkan hasil pengujian tersebut, terdapat beberapa faktor yang mempengaruhi akurasi kebenaran pada pengujian metode K-Means Clustering yaitu persentase jumlah cluster, semakin besar jumlah cluster maka artikel berita yang dikelompokkan semakin spesifik. Hal tersebut menyebabkan tingkat akurasi kebenaran semakin tinggi. Kata kunci: text preprocessing, pembobotan TF IDF, vector term, K-Means Clustering, euclidean distance. 1. Pendahuluan Informasi menjadi suatu hal yang dibutuhkan seiring dengan perkembangan teknologi informasi dan komunikasi. Salah satu sumber informasi tersebut adalah situs berita online. Pada situs berita online, kategori berita biasanya dipisah menjadi halaman olahraga, bisnis, teknologi dan sebagainya. Semakin besar arus dokumen berita yang masuk, maka semakin luas pula sebaran topik dan kategori berita yang ada. Misalnya pada kategori "Olahraga" dibagi menjadi beberapa topik yang lebih spesifik seperti "balap motor" dan "bulu tangkis". Hal ini dapat dimanfaatkan untuk mengetahui kepopuleran topik berita pada jangka waktu tertentu atau lebih sering disebut dengan kaleidoskop berita. Untuk mengetahuinya maka diperlukan pengelompokkan artikel-artikel berita. Dengan banyaknya jumlah artikel berita dengan berbagai macam topik maka proses pengelompokan tersebut menjadi sulit dilakukan dan membutuhkan waktu yang lama karena harus melihat, membaca dan memahami isi setiap artikel berita. Beberapa penelitian sebelumnya pernah dilakukan diantarnya Clusterisasi Dokumen Web (Berita) Bahasa Indonesia Menggunakan Algoritma K-Means dengan hasil akurasi yang masih belum sempurna dan nilai k (cluster) yang masih sedikit untuk menentukan akurasi (Husni, 2015), Pengklasifikasian Karakteristik Dengan Metode K- Means Cluster Analysis dengan hasil algoritma K- Means dapat meringkas objek dari jumlah besar sehingga lebih memudahkan untuk mendiskripsikan karakteristik dari masing-masing kelompok (Ediyanto, 2013), Perbandingan Metode Clustering Menggunakan Metode Single Linkage dan K-Means Pada Pengelompokan Dokumen dengan hasil Metode single linkage memilliki performansi yang lebih baik dibandingkan dengan metode K-means karena penelitian tersebut tidak melakukan inisialisasi cluster awal (Rendy, 2014). Oleh karena itu, dibutuhkan sistem yang dapat mengelompokkan artikel berita secara otomatis agar proses pengelompokkan lebih mudah dan cepat. Penelitian ini membahas aplikasi kaleidoskop berita otomatis berbahasa Indonesia. Artikel berita yang didapatkan dari situs berita daring kemudian akan dikelompokkan sesuai dengan topik berita masingmasing. Jumlah topik berita yang paling banyak akan terpilih pada kaleidoskop berita. Sebuah kajian ilmu yang bernama information retrieval (IR) memunculkan beberapa metodologi yang memudahkan pencarian informasi dari sejumlah besar dokumen digital, salah satunya adalah dengan proses clustering. Proses tersebut adalah pengelompokan data/berkas berbasis teks berdasarkan kemiripannya. Beberapa metode clustering telah dikembangkan untuk

mengelompokkan data seperti K-Means, decision tree, Naïve Bayes, dan sebagainya. Salah satu metode clustering, K-Means, terkenal sederhana dan cepat dalam perhitungannya (Arthur, 2006), serta menjadi dasar pengembangan metode clustering yang lain (Kanungo, 2002; Bhatia, 2004; Pham, 2004, Mahdavi, 2008; Tarpey 2007). Metode K- Means yang dipadukan dengan pembobotan TF-IDF menjadi solusi untuk pengelompokan data tak terstruktur seperti dokumen teks secara otomatis. Karena TF-IDF sendiri juga merupakan metode yang populer dan memiliki hasil perhitungan yang cukup akurat (Ramos, 2010). 2. Text Preprocessing Text preprocessing merupakan proses mempersiapkan teks dokumen atau dataset yang berfungsi untuk mengubah data teks yang tidak terstruktur menjadi data terstruktur. Secara umum proses yang dilakukan dalam tahapan text preprocessing diantaranya adalah case folding, tokenizing, dan filtering. 3. Pembobotan TF IDF Metode TF-IDF (Robertson, 2004) merupakan metode untuk menghitung bobot setiap kata yang paling umum digunakan pada information retrieval. Metode ini juga terkenal efisien, sederhana dan memiliki hasil yang akurat (Ramos, 2010). Metode ini menghitung nilai Term Frequency (TF) dan Inverse Document Frequency (IDF) pada setiap token (kata) di setiap dokumen dalam korpus. Metode ini menghitung bobot setiap token di dokumen dengan rumus:, =, (1) Dimana nilai didapat dari: = log (2) Keterangan:, : Jumlah kemunculan token pada dokumen : Nilai IDF token : Jumlah dokumen yang memuat token Algoritma dari metode K-Means adalah sebagai berikut: 1. Pilih secara acak vektor dokumen yang akan digunakan sebagai centroid awal sebanyak k. 2. Cari centroid yang paling dekat dari setiap dokumen. 3. Hitung ulang untuk menentukan centroid baru dari setiap cluster. 4. Lakukan langkah 2 dan 3 hingga centroid tidak mengalami perubahan lagi. Rumus perhitungan centroid baru dari setiap cluster dicari dengan menggunakan rumus: = = (3) Dengan: : Nilai centroid dari suatu cluster : Jumlah dokumen yang berada dalam satu cluster : Nilai dari sampel dokumen ke-i yang termasuk cluster k ( ) Sedangkan untuk menemukan jarak dua dokumen digunakan rumus Euclidean distance:, = + + + (4) Dengan:, : Jarak dokumen ke- ke dokumen ke- : Kata ke di dokumen ke- : Kata ke di dokumen ke- Untuk mengaplikasikan K-Means dalam clustering dokumen teks, maka dibentuklah vektor dokumen dengan jumlah dimensi sebanyak token unik dalam korpus. 5. Metodologi Penelitian Pada bagian ini dibahas metodologi yang digunakan peneliti dalam pembuatan Ekstraksi Fitur Situs Berita Online. Metode penenlitian yang digunakan adalah metode prototype. Proses kegiatan yang ada pada metode prototyping dapat dijelaskan pada Gambar 1. 1. Pengumpulan Kebutuhan : Jumlah dokumen dalam korpus 2. Membangun Prototype 4. K Means Clustering Metode K-Means clustering merupakan metode clustering yang dikenalkan oleh (Lloyd, 1982). K- Means adalah metode clustering yang mengelompokkan semua data yang dimiliki ke dalam k cluster, dimana nilai k sudah ditentukan sebelumnya. K-Means mengelompokkan data berdasarkan jarak dari tiap dokumen ke pusat cluster (centroid) yang sudah ditentukan sebanyak k, dan mengelompokkan data-data ke pusat cluster yang terdekat. 3. Evaluasi Prototype 4. Pembuatan Sistem 5. Menguji Sistem 6. Evaluasi Sistem Gambar 1. Model Prototype

6. Rancangan Sistem yang dirancang dan dibangun dalam penelitian ini adalah Ekstraksi Fitur Situs Berita Online Untuk Kaleidoskop Berita Tahunan. Artikel berita yang didapatkan pada situs berita online dalam waktu enam bulan merupakan data inputan. Artikel-artikel berita tersebut disimpan dalam bentuk dokumen teks kemudian diolah dengan text preprocessing sehingga terbentuk token/term. Selanjutnya masing-masing token/term dihitung bobotnya dengan metode pembobotan TF IDF. Setelah itu dokumen tersebut dikelompokkan dengan K Means Clustering, cluster yang memiliki populasi terbanyak akan diambil sebagai trend topik berita atau kaleidoskop berita. Judul artikel Isi artikel START Input Dokumen Proses mengubah teks menjadi lowercase (Case Folding) Proses penghilangan tanda baca (Tokenizing) Proses penghilangan kata tidak penting (Filtering) Dokumen yang telah diprocessing Artikel Berita per hari Artikel Berita 1 Bulan Text Preprocessing Case Folding Tokenizing Filtering Pembobotan TF IDF... Vector Term 1 Vector Term 2 Vector Term 3 Vector Term-n K Means Clustering Hasil Clustering Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Populasi: 5 Populasi: 20 Populasi: 12 Populasi: 15 Populasi: 7 Cluster 6 Cluster 7 Cluster 8 Cluster 9 Cluster 10 END Gambar 3. Flowchart Text Preprocessing 7.2. Flowchart K Means Clustering Flowchart Algoritma K-Means merupakan flowchart yang berisi urutan inputan berupa vector term dari masing-masing dokumen yaitu bobot yang dimiliki setiap kata/term, mencari jumlah cluster, menentukan centroid (titik pusat) awal, mencari jarak, mengelompokkan dokumen berdasarkan jarak terdekat dengan centroid, serta proses mencari centroid baru. START Populasi: 35 Populasi: 10 Populasi: 17 Populasi: 25 Populasi: 7 Vector Term Dokumen Kaleidoskop Berita No Cluster: 6 No Cluster: 9 No Cluster: 2 No Cluster: 8 No Cluster: 4 Menentukan Jumlah cluster Menentukan centroid awal Pengujian (akurasi kebenaran) Mencari Jarak Gambar 2. Rancangan Sistem 7. Flowchart 7.1. Flowchart Text Preprocessing Mengelompokkan dokumen berdasarkan jarak terdekat dengan centroid Flowchart tahap preprocessing merupakan flowchart yang berisi proses penghilangan tanda baca (tokenization) serta proses penghilangan kata yang tidak penting (stopwords). Objek tidak ada yang berpindah cluster YA TIDAK Mencari Centroid baru Hasil Cluster END Gambar 4. Flowchart K-Means Clustering

8. Implementasi 8.1. Implementasi Basis Data Berikut ini merupakan hasil implementasi basis data: Kemudian artikel berita yang benar dijumlahkan sehingga mendapatkan jumlah artikel yang benar untuk selanjutnya dihitung menjadi persentase akurasi kebenaran artikel. Berdasarkan pengujian manual, didapatkan perhitungan akurasi kebenaran artikel berita pada setiap persentase jumlah cluster. Semakin besar persentase jumlah cluster semakin besar pula tingkat akurasi kebenaran. Pada pengujian dengan persentase jumlah cluster 40% menunjukkan hasil akurasi kebenaran diatas 80%. Berikut ini adalah grafik akurasi kebenaran artikel berita pada setiap Gambar 5. Implementasi Basis Data A K U R A S I K E B E N A R A N 8.2. Implementasi Antarmuka Berikut ini merupakan hasil implementasi antarmuka sistem: 81.1 82.2 69.5 80.7 73.71 81.1 56.74 82.5 10% 20% 30% 40% 81.54 82.22 82.38 83.9 80.62 81.1 70.61 82.72 72.05 82.5 73.44 80.45 60.37 75.06 79.42 84.17 J U L I A G U S T U S S E P T E M B E R O K T O B E R N O V E M B E R D E S E M B E R Gambar 7. Grafik Akurasi Kebenaran 9. Uji Coba Gambar 6. Implementasi Antarmuka Untuk menguji metode K-Means Clustering pada dokumen teks berita, maka dibutuhkan responden untuk mengoreksi kebenaran dari suatu artikel berita. Kebenaran yang dimaksud adalah kebenaran hasil clustering, apakah memliki keterkaitan dengan artikel berita yang lain dalam satu cluster. Langkah pertama dari pengujian ini adalah melihat artikel berita terpilih, yaitu artikel berita yang mempunyai jarak euclidean terdekat dengan centroid. Selain itu juga terdapat lima buah kata kunci yang memiliki keterkaitan dengan artikel berita yang lain. Lima kata kunci tersebut dipilih berdasarkan bobot TF IDF yang paling besar. Langkah berikutnya adalah koreksi terhadap artikel berita dalam satu cluster. Koreksi tersebut terdapat dua pilihan yaitu banar atau salah. bulan. Berdasarkan grafik akurasi kebenaran penelitian, menunjukkan bahwa semakin besar persentase jumlah cluster belum tentu bisa mendapatkan tingkat akurasi yang tinggi. Hal ini disebakan karena metode k means clustering mengambil titik pusat (centroid) secara acak. Sehingga apabila ada artikel berita yang keberagaman topiknya berjumlah sedikit menyebabkan artikel tersebut masuk ke dalam kelompok (cluster) yang kurang sesuai. Sebagai contoh topik tentang tenis yang berjumlah sedikit dapat masuk ke dalam topik bulu tangkis. Untuk membuktikan hal tersebut, maka dilakukan pengujian k means clustering pada 47 artikel berita secara acak. Hasil dari pengujian tersebut adalah semakin besar jumlah persentase jumlah cluster, maka artikel berita akan dikelompokkan lebih spesifik. Sehingga topik yang memiliki sedikit akan dikelompokkan sendiri, hal ini akan mempengaruhi akurasi kebenaran pada masingmasing pengujian. Oleh karena itu semakin besar persentase jumlah cluster akan semakin tinggi akurasi kebenarannya. Berikut ini adalah grafik yang menunjukkan hasil pengujian k-means clustering.

Tingkat Akurasi Kebenaran (%) 120 100 80 60 40 20 0 65.51 Akurasi Kebenaran 92.93 95.43 97.73 97.77 98.2 98.21 100 93.83 95.17 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% Persentase Jumlah Cluster Gambar 8. Grafik Akurasi Kebenaran 2 9.1. Pengujian Text Preprocessing Pada tahap text preprocessing, artikel berita dilakukan proses case folding, tokenizing, dan filtering. Setelah proses tersebut dijalankan, kemuadian setiap kata/term dilakukan pembobotan TF IDF sehingga terbentuk vector term. Kedua tahap tersebut dieksekusi bersama pada data berita setiap bulan. Berikut hasil eksekusi dari masingmasing data berita setiap bulan: Bulan Jumlah Jumlah Waktu Artikel Term/Kata Eksekusi Juli 236 5562 19.104 detik Agustus 286 6964 31.256 detik September 195 5516 17.311 detik Oktober 270 6837 30.635 detik November 198 5647 18.941 detik Desember 159 5112 14.162 detik Tabel 1. Pengujian Text Preprocessing Sumber: Pengujian Text Preprocessing 9.2. Pengujian K-Means Clustering Pada tahap K-Means Clustering, vector term yang dihasilkan dari pembobotan TF IDF pada setiap artikel berita akan dikelompokkan dengan metode tersebut. Pengelompokkan (clustering) tersebut berdasarkan pada pendekatan euclidean distance dengan jumlah cluster sebagai data masukan. Jumlah cluster didapatkan dari persentase jumlah cluster dikalikan dengan jumlah artikel. Pada penelitian ini, terdapat empat percobaan persentase jumlah cluster pada setiap clustering data berita. Berikut ini adalah hasil dari eksekusi k-means clustering pada masing-masing data berita setiap bulan: Bulan Tabel 2. Pengujian K-Means Clustering Persentase Jumlah Cluster Jumlah Cluster Waktu Eksekusi Juli 10% 23 286.762 detik Juli 20% 47 545.273 detik Juli 30% 70 411.736 detik Juli 40% 94 555.109 detik Agustus 10% 28 791.729 detik Agustus 20% 57 681.101 detik Agustus 30% 85 2202.319 detik Agustus 40% 114 1342.303 detik September 10% 19 188.591 detik September 20% 39 271.223 detik September 30% 58 406.928 detik September 40% 78 537.713 detik Oktober 10% 27 642.373 detik Oktober 20% 54 753.955 detik Oktober 30% 81 920.306 detik Oktober 40% 108 1486.462 detik November 10% 19 186.045 detik November 20% 39 525.308 detik November 30% 59 439.768 detik November 40% 79 428.342 detik Desember 10% 15 112.702 detik Desember 20% 31 226.568 detik Desember 30% 47 267.841 detik Desember 40% 63 431.681 detik Sumber: Pengujian K-Means Clustering 10. Kesimpulan dan Saran Berdasarkan hasil dan pembahasan, maka dapat diperoleh beberapa kesimpulan diantaranya, terdapat faktor-faktor yang mempengaruhi akurasi kebenaran pada pengujian metode K-Means Clustering yaitu: (1) Persentase jumlah cluster, semakin besar jumlah cluster maka artikel berita yang dikelompokkan semakin spesifik. Hal tersebut menyebabkan tingkat akurasi kebenaran semakin tinggi. (2) Banyaknya keberagaman topik berita, jika jumlah keberagaman topik berita yang sedikit dikelompokkan dengan jumlah cluster yang kecil maka artikel berita tersebut akan masuk dalam kelompok (cluster) yang kurang sesuai. Saran yang diberikan untuk pengembangan ektraksi fitur situs berita online ini adalah dengan mencoba teknik clustering dengan pendekatan cosine similarity karena terbukti dengan menggunakan pendekatan euclidean distance hasil akurasi kebenarannya masih dipengaruhi oleh banyak faktor penentu sehingga masih belum dapat menentukan pembatasan jumlah cluster secara pasti untuk clustering.

Daftar Pustaka: Arthur, David and Sergei Vassilvitskii, 2006, How Slow is the k-means Method, Stanford University, Stanford, CA. Bhatia, Sanjiv K., 2004, Adaptive K-Means clustering, Department of Mathematics & Computer Science, University of Missouri St. Louis. Ediyanto. Dkk, 2013. "Pengklasifikasian Karakteristik Dengan Metode K-Means Cluster Analysis". Buletin Ilmiah Mat. Stat. dan Terapannya (Bimaster). 2(2), 133-136 Handoyo, Rendy. Dkk, 2014. "Perbandingan Metode Clustering Menggunakan Metode Single Linkage Dan K - Means Pada Pengelompokan Dokumen". ISSN. 1412-0100. 15(2), 73-82 Husni, Yudha Dwi Putra Negara, dkk, 2015. "Clusterisasi Dokumen Web (Berita) Bahasa Indonesia Menggunakan Algoritma K-Means". Jurnal Cimantec. 4(3), 159-166 Lloyd, S. P. (1982). Least squares quantization in PCM. IEEE Transactions on Information Theory 28 (2): 129 137. doi:10.1109/tit.1982.1056489. Mahdavi, Mehrdad and Hassan Abolhassani; 2008, Harmony k-means Algorithm for Document clustering, Springer Science+Business Media, LLC 2008. Ramos, Juan, 2010, Using TF-IDF to Determine Word Relevance in Document Queries, Department of Computer Science, Rutgers University, Piscataway. Robertson, Stephen, 2004, Understanding Inverse Document Frequency: On Theoritical Arguments for IDF, Journal of Documentation; 2004; 60, 5; ABI/INFORM Global. Tarpey, Thaddeus, 2007, A Parametric k-means Algorithm, Springer Verlag 2007, Computational Statistic 22: 71-89.