Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Praditya Kurniawan 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 STMIK AMIKOM Yogyakarta e-mail: * 1 pradityakurniawan@gmail.com, 2 ema.u@amikom.ac.id, 3 andi@amikom.ac.id Abstrak Pengklasteran merupakan salah satu teknik untuk melakukan analisis data pada data mining. Beberapa metode pengklasteran diantaranya adalah k-means dan single linkage. Setiap metode mempunyai karakteristik tersendiri dalam mengklasterkan data. Komparasi setiap metode dilakukan untuk melihat kemampuan setiap metode dalam mengklasterkan data. Penilaian yang dilakukan dalam komparasi ini menggunakan metode Silhouette Coefficient dan Purity. Selain itu pengujian setiap metode akan dilakukan dengan dua jenis data yang diambil dari sumber yang berbeda. Dari pengujian yang dilakukan terhadap kedua metode, pada beberapa pengujian single link mempunyai hasil kualitas yang lebih baik daripada k-means. Hasil dari penelitian ini dapat dijadikan acuan untuk menentukan algoritma pengklasteran dalam data teks berbahasa Indonesia dan dapat dikembangkan lebih lanjut lagi dalam penerapan kasus sehari hari. Kata kunci Klaster, K-Means,, Bahasa Indonesia, Visualisasi Abstract Clustering is a technique to perform data analysis on data mining. Several clustering methods include k-means and single linkage. Each method has its own characteristics in mengklasterkan data. Comparison of each method was conducted to see the ability of each method in mengklasterkan data. Assessment is carried out in this comparative method Silhouette Coefficient and Purity. Besides testing each method will be conducted with two types of data taken from different sources. From the tests performed on the second method, in some testing single linkage has a better quality results than k-means. The results of this study can be used as a reference for determining the clustering algorithms in the Indonesian language text data and can be developed further in the case of daily application. Keywords Clustering, K-means,, Indonesian Language, Visualization K 1. PENDAHULUAN lastering merupakan salah satu teknik dalam analisis data pada data mining. Teknik pengklasteran merupakan teknik pengelompokkan kumpulan data menjadi beberapa kelompok sehingga objek didalam satu kelompok mempunyai banyak kesamaan dan memiliki banyak perbedaan dengan objek kelompok lain[1]. Penelitian yang dilakukan Randy Handoyo[2] tentang pengklasteran menggunakan dokumen berbahasa Indonesia menghasilkan single linkage mempunyai nilai yang lebih baik. Dalam penelitian yang telah dilakukan dapat dikembangkan dengan jenis data yang berbeda. Heru Susanto[3] juga pernah melakukan pengklasteran dan analisis sentimen data dengan data twitter. Data twitter merupakan data teks yang mempunyai batas kata dan jumlahnya yang terus bertambah sehingga menarik untuk diteliti.

Berdasarkan penelitian yang dilakukan oleh Suwanto[4], penelitian bertema tentang pengklasteran data di Indonesia masih sedikit sehingga mempunyai peluang banyak untuk dilakukan penelitian. 2. METODE PENELITIAN Pada bagian ini akan diuraikan langkah langkah yang dilakukan untuk melakukan penelitian. Secara umum langkah langkah penelitian dapat dilihat pada Gambar 22. Gambar 22 Gambaran Alur Penelitian Secara Umum 2.1 Pengumpulan Data Data yang akan digunakan dalam penelitian diambil dari beberapa sumber. Data pertama yang diambil adalah data teks berita. Sumber data teks berita dari berita online antaranews dengan memanfaatkan rss feed yang sudah disediakan tanpa menggunakan kategori tertentu (umum). Data kedua diambil dari twitter dengan memanfaatkan API yang sudah disediakan. Data twitter yang diambil hanya dari akun twitter milik @kompascom, @tempoco, dan @antaranews tanpa menggunakan filter tertentu. 2.2 Text Processing Data yang sudah dikumpulkan harus melalui proses pembersihan teks. Fungsi dari text processing adalah menghilangkan kata yang tidak bermakna. Tahapan tahapan untuk melakukan pembersihan teks sebagai berikut. 1. Cleaning dan Case Folding Cleaning merupakan proses penghapusan karakter angka, maupun tanda baca. Sedangkan case folding merubah semua karakter menjadi huruf kecil. 2. Tokenization Tokenization merupakan tahapan untuk memecah kalimat menjadi per kata. 3. Stopword Removal Stop word removal merupakan tahapan untuk menghapus kata yang tidak memiliki makna/ tidak berpengaruh. 4. Pembobotan Untuk dapat mengklasterkan data teks, data teks tersebut harus diberi bobot sehingga dapat dilakukan perhitungan. Pembobotan yang digunakan adalah TF- IDF. 2.3 Text Clustering

Silhouette Coefficient Pengklasteran teks menggunakan bahasa pemrograman PHP. Metode yang digunakan untuk mengklasterkan teks adalah k-means dan single linkage. 2.4 Evaluasi Metode evaluasi yang digunakan dalam penelitian ini adalah silhouette coefficient dan purity. Perhitungan silhouette coefficient dapat dilihat pada persamaan (1) Sedangkan perhitungan menggunakan purity dapat dilihat pada persamaan (2). Purity (Ω, C) = 1 n max j (ω k C j ) k (2) 2.5 Visualisasi Visualisasi digunakan untuk menampilkan hasil pengklasteran yang sudah dilakukan. Pada visualisasi ini menampilkan jumlah kata terbanyak pada setiap klaster yang dibentuk. Visualisasi menggunakan HTML dan javascript. (1) 3. HASIL DAN PEMBAHASAN 3.1 Pengujian Dengan Menggunakan Data Teks Berita Setelah dilakukan pengklasteran data terhadap data twitter dan berita dilakukan evaluasi menggunakan silhouette coefficient dan purity. Hasil pengujian silhouette coefficient menggunakan 5 data berita antaranews dapat dilihat pada Gambar 23. 5 5.5 982 7 47 745 848 651 926 792 49 624 33 126 5 6 7 8 9 1 Jumlah Klaster K-Mean Gambar 23 Grafik Nilai SC pada Data Berita Antaranews Dari hasil evaluasi menggunakan shilouette coefficient pengklasteran menggunakan metode single linkage lebih baik daripada k-means. Hal ini dapat dilihat pada pembentukan setiap klaster nilai sc (shilouette coefficient) dari single linkage lebih tinggi dari k-means. Walaupun secara keseluruhan klaster terbentuk belum cukup kuat (sc < 1). Nilai terbaik sc pada

Silhouette Coefficient Purity metode k-means terjadi saat pembentukan 1 klaster dengan nilai sc,1926. Sedangkan nilai terbaik metode single linkage terjadi saat pembentukan 7 klaster dengan nilai sc,27. Sedangkan hasil evaluasi menggunakan purity pada 5 data berita antaranews dapat dilihat pada Gambar 24.7.6.5.4.3.64.48.5.42.42.42.52.4.42.34.4.44 5 6 7 8 9 1 K-Means Gambar 24 Grafik Nilai Purity Pada Data Teks Berita Dari hasil evaluasi menggunakan purity nilai purity single linkage dominan lebih tinggi daripada k-means. Namun pada pembentukan 6 klaster nilai purity k-means menyamai single linkage, bahkan pada pembentukan 9 klaster nilai purity k-means lebih tinggi dari single linkage. Hal ini dapat mengindikasikan jika k-means ada kemungkinan membentuk klaster yang lebih baik. 3.2 Pengujian Dengan Menggunakan Data Twitter Hasil evaluasi silhouette coefficient pada pembentukan klaster dengan 5 data twitter dapat dilihat pada Gambar 25 5 5.5 982 7 47 848 745 651 926 792 126 33 624 49 K-Mean 5 6 7 8 9 1 Jumlah Klaster Gambar 25 Grafik Nilai SC Pada Data Twitter Dari evaluasi menggunakan silhouette coefficient pada penggunaan data twitter nilai sc Single linkage lebih tinggi daripada k-means. Nilai sc tertinggi untuk metode k-means adalah

,1926 pada saat pembentukan 1 klaster. Sedangkan nilai sc tertinggi untuk single linkage adalah,27 saat pembentukan 7 klaster. Hasil evaluasi menggunakan purity pada penggunaan 5 data twitter dapat dilihat pada Gambar 26..4.35.3 5 5.5 8 2.32 2 8 Gambar 26 Grafik Nilai Purity Pada Data Twitter 4.32 6.34 5 6 7 8 9 1 8 K-Means Dari hasil evaluasi purity k-means mempunyai nilai purity yang lebih tinggi dibanding dengan single linkage. Nilai purity tertinggi pada metode k-means adalah,32 saat pementukan 7 klaster dan nilai terendah saat membentuk 5 klaster dengan nilai,2. Sedangkan nilai tertinggi untuk metode single linkage adalah,28 saat pembentukan 1 klaster dan nilai terendah saat pembentukan 5 klaster dengan nilai,18. 3.3 Visualisasi Data Visualisasi data menggunakan HTML dengan Javascript sehingga dapat diakses menggunakan browser. Contoh visualisasi dengan menggunakan metode k-means dapat dilihat pada Gambar 27. Gambar 27 Contoh hasil Visualisasi Dengan Metode K-Means 4. KESIMPULAN Dari penelitian yang telah dilakukan dapat diambil kesimpulan sebagai berikut.

1. Pada penggunaan data teks berita antaranews single linkage menghasilkan nilai SC dan purity yang lebih tinggi daripada k-means. Nilai SC tertinggi metode single linkage saat dilakukan pembentukan 7 klaster dengan nilai,27. Sedangkan nilai tertinggi metode k-means saat dilakukan pembentukan 1 klaster dengan nilai,192. Nilai purity tertinggi metode k-means saat membentuk 9 klaster dengan nilai,64. Sedangkan nilai tertinggi pada metode single linkage saat membentuk 1 kklaster dengan nilai,52. 2. Pada penggunaan data twitter metode k-means mempunyai indikasi dapat menghasilkan nilai SC dan Purity yang lebih tinggi daripada single linkage. Hal ini dapat dikarenakan penentuan titik centroid awal pada data mendekati data yang dominan. 5. SARAN Berdasarkan penelitian yang telah dilakukan maka dalam upaya pengembangan dapat dikemukakan beberapa saran berikut: 1. Hasil dari pengklasteran dipengaruhi oleh hasil text processing yang dilakukan. Pemilihan metode dan library yang digunakan saat melakukan text processing akan mempengaruhi hasil pengklasteran yang dilakukan. 2. Penelitian ini menggunakan bahasa pemrograman PHP yang dapat digunakan pada hampir semua platform sehingga dapat dikembangkan lebih baik lagi dalam hal antarmuka. UCAPAN TERIMA KASIH Penulis mengucapkan terimakasih kepada STMIK Amikom Yogyakarta dan STMIK Dipanegara Makasar yang telah memberikan kesempatan mempublikasikan tulisan ini. DAFTAR PUSTAKA [1] Han, Jiawei & Kamber, Micheline., 26, Data Mining: Concepts and Techniques, Second Edition, Morgan Kaufman Publishers, San Francisco [2] Handoyo, Rendy dkk., 214. Perbandingan Metode Clustering Menggunakan Metode Single Linkage dan K-Means Pada Pengelompokan Dokumen, Jurnal Teknik ITS [3] Susanto, Heru, dkk., 214, Visualisasi Data Teks Twitter Berbasis Bahasa Indonesia Menggunakan Teknik Pengklasteran, ITS Paper 214 [4] Raharjo, Suwanto & Winarko, Edi., 214. Klasterisasi, Klasifikasi, dan Peringkasan Teks Berbahasa Indonesia, Prosiding Seminar Ilmiah Nasional Komputer dan Sistem Intelijen