BAB I PENDAHULUAN 1.1. Latar Belakang

Transkripsi

1 BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang dapat dengan mudah berbagi informasi secara gratis dan memiliki akses yang cepat terhadap informasi yang mana dimasa lalu hal tersebut tidak dimungkinkan. Information age merupakan dampak dari revolusi ICT (Information and Communication Technology) yang berkembang sangat pesat (Alberts dan Papp, 2004). Salah satu media penyebar informasi yang paling sering digunakan adalah internet. Beberapa media internet yang digunakan untuk penyebar informasi adalah portal berita online, media sosial, website resmi suatu lembaga. Indonesia telah memiliki portal berita nasional online yang menyediakan informasi-informasi mengenai keadaan Indonesia terkini seperti detiknews, vivanews, kompas online. Indonesia belum memiliki portal berita kampus nasional untuk mendapatkan informasi dari kampus. Campbuzz adalah salah satu portal berita online yang sedang dikembangkan. Campbuzz merupakan portal berita online yang menyediakan informasi dan berita yang berasal dari lingkungan kampus. Campbuzz menyediakan berbagai informasi dan berita kampus dari berbagai kampus besar di Indonesia seperti, Universitas Gadjah Mada (UGM), Institut Teknologi Bandung (ITB), Universitas Padjajaran (Unpad), Universitas Indonesia (UI). Pengguna dari Campbuzz ada 2 jenis yaitu: admin dan pembaca berita. Admin bertugas untuk memasukan artikel berita baik secara manual maupun dengan RSS, mengedit berita, menghapus berita, mengganti alamat RSS dari suatu kampus. Sistem Campbuzz saat ini sudah dapat melakukan parse HTML berdasarkan link yang didapat melalui RSS. Parse HTML dilakukan untuk mengambil isi dari artikel dan menghilangkan tag html. Interaksi dengan admin

2 2 masih perlu dilakukan jika admin akan memasukan berita melalui RSS walaupun sistem telah melakukan parse HTML karena ada 1 buah attribute yang tidak bisa ditentukan oleh sistem yaitu kategori berita. Interaksi antara admin dan sistem terjadi setiap admin akan memasukan artikel berita melalui RSS. Hal ini tentu saja akan membuat beban kerja admin menjadi besar ketika ada banyak berita yang harus dimasukan admin ke dalam sistem. Beberapa universitas memiliki kategori untuk setiap berita yang ada pada website resmi masing-masing universitas. Contoh universitas yang telah memiliki kategori untuk setiap berita yang dimuat pada website resmi yaitu: Universitas Gadjah Mada dan Institut Teknologi Telkom. Ada universitas yang belum memiliki kategori untuk setiap berita yang dimuat dalam website resmi universitas seperti: Institut Teknologi Bandung, Universitas Padjajaran dan Universitas Diponegoro. Berita dari berbagai macam universitas tersebut dimasukkan ke dalam database Campbuzz dan kategori yang melekat pada berita yang berasal dari Universitas Gadjah Mada dan Institut Teknologi Telkom tidak dapat digunakan sehingga tugas lainnya yang harus dilakukan oleh admin Campbuzz adalah menentukan kategori dari setiap berita yang ada pada database Campbuzz. Dari paparan diatas terdapat suatu permasalahan yang dapat diangkat menjadi objek penelitian yaitu bagaimana membangun suatu sistem yang dapat meringankan beban kerja admin dalam memasukkan berita ke dalam database Campbuzz dan mengorganisir berita yang ada pada Campbuzz dengan mengelompokkan (clustering) artikel berita yang disimpan pada database Campbuzz. Mengelompokkan (menurut KBBI online) adalah membagi dalam beberapa kelompok. Dalam dunia komputer pengelompokan data menjadi beberapa kelompok yang lebih kecil disebut dengan clustering. Clustering adalah suatu proses untuk melakukan pengaturan data ke dalam suatu kelompok lebih kecil yang mana anggota dari kelompok tersebut memiliki suatu kemiripan dari suatu sisi. Suatu cluster merupakan sekumpulan data yang memliki tingkat kemiripan (similarity) yang tinggi sedangkan data dari cluster yang berbeda memiliki tingkat similaritas yang rendah.(liu, 2011).

3 3 Masalah dalam pengelompokan artikel secara otomatis dapat diselesaikan dengan menggunakan text mining. Text mining adalah mendapatkan informasi yang tidak diketahui sebelumnya secara otomatis dari berbagai sumber tertulis. Elemen kuncinya adalah menghubungkan secara bersama-sama dari informasi yang digali menjadi suatu fakta baru atau hipotesis yang dapat diteliti lebih lanjut. Text mining berbeda dengan web search. Pada web search, pengguna mencari sesuatu yang telah diketahui dan telah ditulis oleh seseorang. Pada text mining, tujuannya adalah untuk menggali informasi yang tidak diketahui atau sesuatu yang belum diketahui dan ditulis oleh seseorang (Hearst, 2003). Document clustering merupakan bagian dari text mining. Document clustering dapat mengelompokkan dokumen menjadi kelompok-kelompok yang lebih kecil berdasarkan isi dari berita tersebut. Hal ini tentu akan memudahkan admin Campbuzz dalam mengelola artikel berita kampus yang ada pada database Campbuzz. Salah satu algoritma yang digunakan untuk melakukan document clustering adalah bisecting K-means. Algoritma bisecting K-means merupakan pengembangan algoritma K-means. Secara umum, algortima bisecting K-means memiliki hasil pengelompokan yang lebih baik dibandingkan dengan algoritma K- means (Setiawan, 2010). Michael Steinbach, George Karypis dan Vipin Kumar melakukan pengujian terhadap algoritma partitional dan hierarchical. Dari hasil pengujian didapatkan hasil bahwa untuk model partitional, algoritma bisecting K-means mempunyai kinerja yang lebih baik dibandingkan dengan algoritma standar K- means. Hasil pengujian selanjutnya adalah bisecting K-means lebih baik dari pada metode hierarchical (UPGMA) Perumusan Masalah Berdasarkan latar belakang masalah seperti di subbab 1.1, maka dapat disusun rumusan masalah sebagai berikut: 1. Artikel berita yang ada pada database Campbuzz berasal dari berbagai kampus di Indonesia yang diambil dengan menggunakan RSS sehingga jumlah artikel berita yang didapat menjadi sangat banyak dan tidak

4 4 terorganisir. 2. Artikel berita yang dimasukkan ke dalam Campbuzz tidak memiliki kategori berita sehingga admin Campbuzz harus menentukan jumlah kategori yang ada pada artikel berita pada database Batasan Masalah Penelitian ini mempunyai beberapa batasan masalah yang menspesifikasikan hal-hal yang akan diulas dan diimplementasikan ke dalam sistem. Hal ini dilakukan agar pembahasan dan pembuatan laporan tidak keluar dari judul yang ditetapkan. Batasan masalah dalam penelitian ini antara lain: 1. Batasan Fungsional a. Pengguna dari sistem pengelompokan berita kampus ini adalah admin Campbuzz b. Admin Campbuzz dapat memasukkan 10 artikel berita terbaru dari RSS c. Admin dapat mencari informasi jumlah kelompok dari artikel berita yang disimpan pada database Campbuzz. 2. Batasan Non-fungsional Sistem ini ditujukan untuk meringankan beban kerja admin Campbuzz dalam memasukkan berita dan mengelola berita kampus yang ada pada database Campbuzz. 3. Batasan Penelitian Pengembangan sistem ini fokus untuk mengetahui jumlah kelompok (cluster) dari sejumlah sampel berita yang ada pada database Campbuzz Keaslian Penelitian Di bawah ini dijelaskan beberapa paper yang berkaitan dengan tema yang dibahas: (Su dkk, 2009) melakukan penelitian tentang mengelompokkan teks dengan berdasarkan pendekatan sekumpulan term yang paling sering muncul. Algoritma clustering yang berdasarkan sekumpulan term yang paling sering

5 5 muncul memanfaatkan hubungan antar dokumen dan term yang sering dipakai bersama untuk mencapai tingkat akurasi yang tinggi dan efektifitas dalam pengelompokan. Pendekatan ini diawali dengan menambang term yang paling sering muncul dari sekumpulan teks dan mengelompokan teks dengan langkah sebagai berikut: Term yang paling sering muncul dikelompokan berdasarkan kriteria k-mismatch, kemudian teks dikelompokan sesuai dengan hasil dari pengelompokan term. (Akhriza dkk, 2011) melakukan penelitian tentang mengelompokan teks dengan menggunakan frequent contextual termset (FCT). FCT adalah konsep alternatif untuk membangun termset yang digunakan untuk mengelompokan dokumen. Keuntungan dengan menggunakan pendekatan ini adalah: (1) lebih efisien dalam produksi termset, (2) lebih efektif dalam menyimpan kosa kata yang mengekspresikan konteks dokumen. (3) lebih cocok dalam menemukan kekhasan dalam suatu dataset. (Sharma dan Dhir, 2009) melakukan penelitian tentang pengelompokan dokumen berdasarkan sekumpulan kata yang diaplikasikan untuk sekumpulan data yang besar. Dalam penelitian ini diusulkan wordset based clustering (WDC), suatu algoritma clustering yang efisien berdasarkan sekumpulan kata terdekat. WDC menggunakan menggunakan pendekatan hirarki untuk melakukan pengelompokan terhadap sejumlah dokumen. WDC lebih efektif, efisien dan scalable jika dibandingkan dengan algoritma clustering lainnya seperti K-means. (Abe dan Tsumoto, 2011) meneliti tentang klasifikasi dokumen dengan menggunakan pola sementara penggunaan term. Pola sementara dari keseluruhan kata dan frasa dalam suatu dokumen berperan penting dalam penelitian ini. Dokumen dicirikan dengan menggunakan pola sementara dari satu atau lebih indeks untuk mengingat perbedaan sementara dari penggunaan seluruh term pada suatu dokumen. Hasil yang didapat dalam penelitian ini adalah didapatkan suatu aturan klasifikasi yang menjelaskan hubungan antara class dan pola sementara yang digunakan untuk prediksi.

6 6 (Pang, Feng, dan Jiang, 2007) meneliti tentang peningkatan peforma klasifikasi dokumen dengan menggunakan maksimum entropy dan entropy feature selection. Peneliti dalam penelitian ini menggunakan kombinasi antara entropy dan teknik machine learning untuk klasifikasi dokumen. Cross entropy dan average mutual information digunakan untuk mengambil features secara efektif. SVM (Support Vector Machine) dan maximum entropy model digunakan untuk melakukan klasifikasi. Hasil yang didapat adalah metode yang diajukan memiliki tingkat akurasi 2.78% lebih baik dibandingkan ME model tradisional dan 0.95% lebih baik pada metode Naïve Bayes. (Abe dan Tsumoto, 2010) meneliti tentang pengategorian teks dengan mengingat pola semetara dari penggunaan term. Metode yang diguanakan dalam penelitian ini adalah mencirikan suatu dokumen dengan menggunakan kelompok sementara yang dibentuk berdasarkan penggunaan term. Metode ini mendapatkan kelompok dokumen berdasarkan kemiripan antar dokumen yang dicirikan dengan pola sementara dari indeks yang penting untuk mengingat perbedaan sementara penggunaan term. Dari beberapa penelitian yang telah disebutkan diatas tidak terdapat seperti yang diajukan melalui penelitian ini yaitu mengenai pengemlompokan artikel berita kampus berbahasa Indonesia dengan menggunakan algoritma bisecting K- means 1.5. Tujuan Penelitian Tujuan dari penelitian ini adalah: 1. Mengelola artikel berita kampus yang berada pada database Campbuzz agar lebih terorganisir. 2. Mencari informasi atau pengetahuan berupa jumlah cluster dari artikel berita yang disimpan pada database Campbuzz. 3. Mendapatkan cluster dengan nilai IST rata-rata 0.5.

7 Manfaat Penelitian Manfaat dari penelitian ini adalah: 1. Artikel berita kampus yang berada pada database Campbuzz menjadi lebih terorganisir karena telah dibagi menjadi kelompok-kelompok kecil. 2. Mendapatkan informasi jumlah kelompok berita yang ada pada artikel berita kampus di database. 3. Mendapatkan cluster yang berkualias berdasarkan nilai IST dengan rata-rata 0.5.