PENGELOMPOKAN OTOMATIS WALL FACEBOOK DAN DAMPAK STEMMING TERHADAP KINERJANYA

Transkripsi

1 PENGELOMPOKAN OTOMATIS WALL FACEBOOK DAN DAMPAK STEMMING TERHADAP KINERJANYA I Putu Sundika 1), Surya Sumpeno 2) dan Mauridhi Hery Purnomo 3) 1) Bidang Keahlian Telematika (Konsentrasi CIO) Jurusan Teknik Elekto Institut Teknologi Sepuluh Nopember 2,3) Prodi Teknik Multimedia Jaringan Jurusan Teknik Elektro Institut Teknologi Sepuluh Nopember 1) putu.sundika@gmail.com ABSTRAK Begitu tingginya jumlah pengguna Facebook di Indonesia membuat media cetak nasional di Indonesia juga membuat Facebook page dengan isi wall adalah cuplikan dari berita yang ada di websitenya. Dengan menggunakan k-means dan Farthest-First, wall tersebut dapat dikelompokkan secara otomatis berdasarkan kesamaan topik bahasannya. Preproses dari pengelompokkan ini menggunakan Porter Stemmer dan Naizef Stemmer. Dari hasil uji coba 466 data wall facebook, cluster terbaik didapatkan dengan k-means k=2 tanpa pre-proses stemming. Akurasi yang dicapai untuk pelabelan nasional dan non-nasional adalah 92.92%. Clustering wall nasional terbaik juga dihasilkan menggunakan k-means k=2 dengan menerapkan pre-proses Nazief. Akurasi yang didapatkan dengan label korupsi dan non-korupsi adalah 77.78%. Kata kunci: Pengelompokan, K-Means, Farthest-First, Porter Stemmer, Nazief Stemmer PENDAHULUAN Pesatnya pengunaan dan adopsi Internet telah memacu pertumbuhan dan pertukaran informasi yang sangat pesat dibandingkan era sebelumnya. Sebagai akibatnya, jumlah informasi terus meningkat secara exponensial, lebih dari 550 triliun dokumen saat ini. Sebanyak 7.3 juta halaman internet baru tiap hari nya walau perkembangan ini memungkinan informasi untuk di akses penguna dengan mudah, jumlah yang terkendalikan ini telah menimbulkan isu dan tantangan yang besar. (Adiwijaya, 2006). Demikian pula halnya dengan berita elektronik berbahasa Indonesia yang volumenya semakin bertambah besar. Berita yang disampaikan melalui media elektronik khususnya yang disebarkan melalui situs jejaring sosial facebook sangat cepat dan banyak mendapatkan respon dari masyarakat. Contohnya adalah berita yang dituliskan pada wall dari beberapa koran nasional pada page facebooknya sangat banyak mendapat komentar dari pengguna facebook. Dengan menggunakan sebuah metode yang tepat, informasi yang ada di facebook ini dapat dikelompokkan untuk mengambil informasi penting yang ada di dalamnya. Clustering dokumen teks dalam hal ini adalah wall di facebook adalah salah satu operasi pada text mining untuk mengelompokkan dokumen yang memiliki kesamaan isi. Clustering dapat diaplikasikan untuk menemukan keterkaitan antar berita.(wibisono, Yudi., & Khodra, M. L., 2006). k-means dan Farthest- First adalah beberapa algoritma sederhana untuk melakukan clustering. Penelitian ini bertujuan untuk mengelompokkan secara otomatis wall facebook berbahasa Indonesia dengan menggunakan metode clustering k-means dan Farthest-First. Percobaan menggunakan pre-proses Porter Stemmer dan Nazief Stemmer pada penelitian ini C-13-1

2 bertujuan untuk melihat pengaruh stemming terhadap kualitas purity dan akurasi dari hasil clustering. TEXT MINING Text Mining merupakan salah satu bentuk eksplorasi dan analisis data test yang bertujuan untuk mendapatkan pengetahuan baru baik itu melalui cara otomatis maupun semi otomatis (Even, Yair dan Zohar, 2002). Text Mining adalah subject riset yang tergolong baru pada bidang data mining. Text Mining dapat memberikan solusi baru dalam hal pemrosessan, pengelompokkan atau pengorganisasian dan analisis teks dalam jumlah besar. Permasalah umum yang terdapat pada Text Mining adalah jumlah data yang besar, high dimensional, struktur yang berubah-ubah, ambigue, depedency dan data noise. PRE-PROSES STEMMING Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya ( root word) dengan menggunakan aturan-aturan tertentu (Ledy Agusta, 2009). Algoritma Nazief Stemmer ini mengacu pada aturan morfologi bahasa Indonesia yang mengelompokkan imbuhan, yaitu imbuhan yang diperbolehkan atau imbuhan yang tidak diperbolehkan. Pengelompokan ini termasuk imbuhan di depan (awalan), imbuhan kata di belakang (akhiran), imbuhan kata di tengah (sisipan) dan kombinasi imbuhan pada awal dan akhir kata (konfiks). Algoritma ini menggunakan kamus untuk mengetahui bahwa proses stemming telah mendapatkan kata dasar. English Porter Stemmer yang dikembangkan oleh Frakes (1992). Algoritma Porter dikembangkan sebagai algoritma stemmer untuk bahasa Indonesia karena cocok dengan struktur morfologi kata-kata di dalam bahasa Indonesia (Tala, 2003). PEMBOBOTAN TF-IDF (TERM FREQUENCY-INVERSE DOCUMENT FREQUENCY) Frekuensi dari sebuah term pada sebuah dokumen sangat penting dalam proses klasifikasi, maupun pengelompokan. Pembobotan term digunakan untuk merepresentasikan makna sebuah term pada suatu dokumen. TF-IDF adalah suatu metode pembobotan terhadap sebuah term dengan memberikan bobot lebih kepada term yang lebih penting (Buss, 2010; Ramadhany, 2008). Lebih sering term terjadi dalam sebuah dokumen maka akan lebih mewakili isi dokumen (Paralic, J, 2003). Keterangan: Ndi,tj = jumlah term tj terjadi dalam dokumen di Ntj = jumlah dokumen di dalam C koleksi k-means Algoritma k-means (Macqueen, 1967) merupakan algoritma clustering yang mudah untuk diimplementasikan. k-means termasuk ke dalam algoritma partitional Clustering, dan juga exclusive clustering yaitu satu data hanya masuk dalam satu cluster tertentu. Ide utama dari algoritma ini adalah menentukan jumlah cluster di awal dan mendefinisikan sejumlah k centroid yaitu satu centroid untuk setiap cluster (Han dan Kamber, 2006:402, Adiningsih, 2007). Data clustering menggunakan dengan k-means secara umum dilakukan dengan algoritma dasar sebagai berikut (MacQueen, 1967): (1) C-13-2

3 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random 3. Hitung centroid / rata-rata dari data yang ada di masing-masing cluster 4. Alokasikan masing-masing data ke centroid / rata-rata terdekat 5. Kembali ke langkah 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid. Jika pusat cluster sudah tidak berubah, proses dianggap selesai. FARTHEST-FIRST Algoritma Farthest-First adalah algoritma yang meminimalkan jarak maksimum dari radius. (Siriporn, and S. Benjawan, 2008). Dalam Furthest-First, titik k pertama kali dipilih sebagai pusat dari cluster. Sisanya ditambahkan pada cluster dengan titik pusat terdekatnya. Titik pusat pada awalnya dipilih secara random. Pusat kedua dipilih titik terjauh dari titik pertama tadi. Pusat berikutnya dipilih titik terjauh dari setiap pusat sebelumnya. Dimana titik terjauh (x) dari sebuah set (S) dinyatakan sebagai : (2) EVALUASI CLUSTER Evaluasi algoritma clustering dilihat berdasarkan bagaimana algoritma tersebut dapat menghasilkan sekumpulan cluster yang mencerminkan pikiran manusia, sebagaimana jika kategorisasi dilakukan secara manual oleh manusia. Terdapat berbagai pendekatan kriteria yang dapat digunakan dalam melakukan evaluasi, salah satunya adalah dengan pendekatan kriteria eksternal, dimana evaluasi kriteria eksternal dilakukan dengan membandingkan hasil cluster yang dilakukan oleh algoritma clustering dengan hasil cluster yang dilakukan secara manual oleh manusia. Purity adalah ukuran kemurnian suatu cluster, yaitu seberapa murni solusi clustering yang diperoleh. Nilai Precision didefinisikan sebagai: P adalah jumlah dokumen yang dalam cluster tersebut, dan L jumlah adalah jumlah dokumen yang relevan dengan cluster. Dan Nilai Purity secara keseluruhan didefinisikan sebagai: Dimana Pi adalah jumlah dokumen untuk cluster i, D adalah total jumlah dokumen yang dianalisis, dan max precision(pi,l) adalah nilai precision tertinggi yang adal di cluster i. (3) (4) C-13-3

4 DIAGRAM ALIR PENELITIAN Pengumpulan Data Wall facebook KompasCom Pelabelan Manual Evaluasi Pre-Process : Cleansing Data. Case Folding, Parsing Interpretasi bobot TF.IDF Clustering DATA Gambar 1 Diagram Alir Penelitian Data yang digunakan pada penelitian ini adalah data wall Facebook dari Facebook page KompasCom yang diposting selama bulan Januari sampai dengan Juli Pelabelan manual untuk melakukan interpretasi hasil cluster, memanfaatkan caption yang sudah ada pada setiap wall KompasCom. Jumlah data yang diolah sebesar 466 wall. Penelitian ini menggunakan 3 jenis pre-proses yaitu wall tanpa stem, wall dengan melalui Porter stemmer dan wall dengan melalui Nazief stemmer.stopwords yang digunakan adalah stopwords dari penelitian Tala 2003 yaitu sebanyak 758 kata. Total wall yang diproses adalah 466 wall dengan jumlah attribut/fitur HASIL DAN PEMBAHASAN Pengelompokan yang dilakukan oleh KompasCom pada setiap wall adalah untuk label nasional sebesar 108 wall dan untuk label non-nasional adalah 358 wall. Gambar 2 Grafik Prosentase Jumlah Wall Berdasarkan 2 Label Manual Tabel 1 Purity k-means k = 2 SEED Tanpa Stem Tala Stem Nazief Stem C-13-4

5 Tabel 2 Purity Farthest-First k = 2 SEED Tanpa Stem Tala Stem Nazief Stem Percobaan dilakukan dengan menggunakan seed yang berbeda-beda untuk mendapatkan inisialisasi centroid yang paling baik. Setelah dilakukan percobaan menggunakan k-means dengan membandingkan pre-proses tanpa stem, dengan Tala Stem dan Nazief Stem didapatkan seperti pada Tabel 1. Purity tertinggi dihasilkan oleh percobaan tanpa pre-proses stem dengan nilai Tabel 2 menunjukkan bahwa hasil purity yang dihasilkan Farthest-First adalah Nilai ini lebih kecil dari yang dihasilkan oleh k- Means. Perbandingan k-means dan Farthest-First ditunjukkan pada Gambar 3. Gambar 3 Grafik Perbandingan Purity antara k-means dan Farthest-First Purity didapatkan dengan cara membandingkan nilai presisi maksimal setiap kelasnya. Nilai purity ini hampir mencapai nilai maksimal dari purity yaitu 1. Ini menandakan cluster yang dihasilkan oleh k-means dengan pre-proses tanpa stem memiliki kualitas yang sangat baik atau bisa diartikan bahwa pembeda antar cluster sangat jelas. Tabel 1 menunjukkan bahwa pada seed 10, 20 dan 30, stemming memang menghasilkan perbaikan purity walaupun sangat kecil. Tapi kemudian di seed berikutnya dan pada Tabel 2, stemming sama sekali tidak membawa perbaikan. Hal ini menunjukkan bahwa stemming hanya membawa pengaruh yang kecil baik terhadap kualitas cluster yang dihasilkan. Tabel 3 Matching Matrix k-means k = 2 C0 C1 Label nasional non-nasional C-13-5

6 Tabel 3 menunjukkan komposisi jumlah label di masing-masing cluster. Matching Matrix yang diperlihatkan ini adalah pada purity tertinggi yaitu seperti yang dihasilkan oleh k- Means di atas. Dengan melihat jumlah label terbanyak di setiap clusternya, dapat diinterpretasikan bahwa Cluster 0 adalah kelompok yang terdiri dari wall yang memunyai topik non-nasional. Sedangkan Cluster 1 adalah kelompok wall yang bertopik nasional. Akurasi dari interpretasi ini adalah sebesar 92.92%. Tabel 4 menunjukkan hasil interpretasi dan nilai precision recall masing-masing cluster. Tabel 4 Hasil Interpretasi Cluster CLUSTER LABEL PRECISION RECALL 0 non-nasional nasional Gambar 4 Grafik Perbandingan Label nasional dan non-nasional Hasil Clustering Kondisi purity yang tinggi yang dihasilkan oleh k-means ditunjukkan pada Gambar 4. Walaupun sangat tinggi, namun masih belum mencapai nilai sempurna sehingga terlihat masih ada label yang menyeberang cluster. Gambar 5 Grafik Hubungan Label Terhadap Cluster Pada k-means k = 2 C-13-6

7 Tabel 5 Centroid Per Cluster CLUSTER CENTROID LABEL FEATURE CENTORID non-nasional ekonomi, emirates, enam, esdm, fpi, garuda, jokowi, juli, jurnal, kalinya, kanada, kandidat, merusak, meter, mikro, nomor, nugroho, obat, oktober, olimpiade, opsi, organisasi, oscar, otak, pabrik, pakai, pakar, palu, paul, pegawai, pekan, pelatihan, telekomunikasi nasional ode, partainya, pdip, pks, pramono, Cluster 0 adalah kumpulan wall berlabel non-nasional dengan centroid cluster Jarak terdekat dengan centroid tersebut dicapai oleh fitur-fitur seperti yang ditunjukkan oleh Tabel 5. Sedangkan Cluster 1 adalah kumpulan wall yang berlabel nasional dengan centroid Cluster nasianal pada page KompasCom lebih banyak menuliskan kata-kata yang berhubungan dengan partai. Sedangkan cluster non-nasional lebih banyak menggunakan kata-kata yang bersifat umum. KESIMPULAN Berdasarkan hasil percobaan dapat disimpulkan bahwa: 1. k-means dan Farthest-First dapat digunakan untuk melakukan pengelompokkan otomatis topik pada wall Facebook ber-bahasa Indonesia. 2. Pre-proses stemming dalam percobaan ini mampu memberikan pengaruh perbaikan kualitas cluster sebesar 5%. 3. Untuk label nasional dan non-nasional, hasil percobaan terbaik didapatkan dari hasil k-means dengan nilai Purity = dan akurasi sebesar 92.92%. Hasil ini didapatkan dari wall yang tidak melewati pre-proses stemming. Purity dan akurasi yang didapatkan dari percobaan menggunakan Farthest-First masih lebih kecil dari k-means dengan ratarata akurasi sebesar 75.69%. SARAN Agar diperoleh hasil yang lebih maksimal, maka beberapa saran untuk pengembangan lebih lanjut adalah sebagai berikut: 1. Perlu diuji coba menggunakan teknik clustering yang lain sebagai perbandingan teknik yang menghasilkan cluster lebih baik lagi. 2. Komentar dari wall perlu diujicoba untuk dicluster juga untuk menemukan sentiment terhadap wall yang dikomentari. DAFTAR PUSTAKA Adiwijaya, Igg. (2006). Tex t Mining dan Knowledge Discovery. Komunitas Data mining Indonesia & Soft-omputing Indonesia. Chen Jinxiu, Ji,Tan, Unsupervised Feature Selection for Relation Extraction, National University of Singapore, Liu Huan & Lei Yu. (2005). Toward Integrating Feature Selection Algorithms for Classification and Clustering. C-13-7

8 Mark A. Hall and Llioyd A. Smith. Feature Subset Selection : A Correlation Based Filter Approach. University of Wakaito. Salton, G. (1989). Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Addison-wesley, Reading, Pennsylvania. Tokunaga, Takenobu. Iwayama, Makoto. (1994). Text Categorization based on Weighted Inverse Document Frequency. Wibisono, Yudi., & Khodra, M. L. (2006). Clustering Berita Berbahasa Indonesia. Zexuan Zhu, Yew-Soon Ong, and Manoranjan Dash. Wrapper-Filter Feature Selection Algorithm Using A memetic Framework. Nanyang Technological University, Singapore. C-13-8