CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

Transkripsi

1 CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta veve.rava@gmail.com Sari Widya Sihwi Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta sari.widya.sihwi@gmail.com Meiyanto Eko Sulistyo Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta mekosulistyo@uns.ac.id ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma SelfOrganizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja. Kata kunci : Text Mining, Text Preprocessing, TFIDF, Clustering, SelfOrganizing Map 1. PENDAHULUAN Fakultas Pertanian Universitas Sebelas Maret (UNS) telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas. Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen dokumen skripsi yang ada di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks. Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya. Salah satu bentuk dari text mining adalah clustering. Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma SelfOrganizing Map. SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan. Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawankawan [3] yang membandingkan algoritma SOM dengan algoritma KMeans dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma KMeans untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan fmeansure yang stabil selama dua puluh kali percobaan. Sedangkan KMeans tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada KMeans juga berbeda setiap kali dilakukan percobaan. Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul Pengelompokan Berita Indonesia 1

2 Berdasarkan Histogram Kata Menggunakan SelfOrganizing Map. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi. Berdasarkan penelitianpenelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS. 2. DASAR TEORI 2.1 Text Mining Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Permasalahan yang dihadapi pada saat melakukan proses text mining adalah jumlah data yang besar, dimensi yang tinggi, dan terdapat banyak term yang tidak penting [5]. Pada text mining, data yang digunakan umumnya unstructure data, atau minimal semistructure data [9]. Hal ini menyebabkan struktur teks yang tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu dilakukan tahap text preprocessing untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut. 2.2 Text Preprocessing Text Preprocessing adalah tahap mengubah suatu dokumen ke dalam format yang sesuai agar dapat diproses oleh algoritma clustering [4]. Berikut ini tahapan pada text preprocessing [5]: 1. Case Floding, merupakan proses mengubah semua huruf yang ada pada dokumen menjadi huruf kecil. Serta menghilangkan karakter selain huruf a sampai z. 2. Tokenizing, merupakan tahap penguraian string teks menjadi term atau kata. 3. Filtering, merupakan tahap pengambilan katakata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). 4. Stemming, merupakan tahap pengubahan suatu kata menjadi akar katanya dengan menghilangkan imbuhan awalan atau akhiran dari tiap kata hasil filtering. 2.3 TFIDF TFIDF berasal dari kata Term Frequency (TF) dan Inverse Document Frequency (IDF). Term Frequency (TF) merupakan frekuensi kemunculan term dalam sebuah dokumen [6]. Semakin sering suatu term muncul dalam dokumen tertentu, maka nilai tfnya akan lebih tinggi dibandingkan term yang jarang muncul dalam dokumen tersebut. Sedangkan Inverse Dokumen Frequency (IDF) didefinisikan sebagai tingkat pentingnya suatu term [6]. Perhitungan TFIDF adalah perkalian antara TF dan IDF. Berikut ini merupaka rumus dari TF IDF [1] : Keterangan : W (i, j) = tf i,j * (log...(1) W (i, j) = bobot suatu term i terhadap dokumen j tf ij = frekuensi kata i pada dokumen j N = jumlah keseluruhan dokumen DF (i) = jumlah dokumen yang mengandung term i 2.4 DF Feature Selection Feature selection merupakan langkah memilih beberapa fitur (misalnya katakata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering [10]. Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut [5]. Salah satu metode pada feature selection yang banyak digunakan adalah DF (Document Frequency) [10] DF (Document Frequency) adalah jumlah dokumen yang mengandung suatu term tertentu [10]. Jika nilai DF berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang [5]. Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term database mungkin cenderung kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database. 2.5 Min Max Normalization Normalisasi dapat meningkatkan akurasi dan efisiensi algoritma data mining yang melibatkan pengukuran jarak [6]. Salah satu metode normalisasi data adalah Min Max Normalization. Min Max Normalizatio melakukan transformasi linear pada data asli [6]. Misalkan mina dan maxa adalah nilai minimum dan maksimum dari sebuah atribut, Min Max Normalization memetakan sebuah nilai v dari A menjadi v dalam range nilai minimal dan maksimal yang baru, new_mina dan new_maxa [6]. Berikut ini merupakan rumus Minmax Normalization [6]: v = (new_maxa new_mina)+new_mina...(2) 2.6 Clustering Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Data yang berada dalam satu cluster memiliki nilai kemiripan yang tinggi, sedangkan data yang berada pada cluster lain 2

3 memiliki tingkat kemiripan yang rendah dengan data tersebut [2]. 2.7 SelfOrganizing Map (SOM) SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi neuronneuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster [2]. Selama proses penyusunan tersebut, cluster yang memiliki jarak paling dekat akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang akan memperbaiki nilai bobotnya beserta neruonneuron tetangganya [2]. Arsitektur SOM dapat dilihat pada Gambar.1. Gambar 1. Arsitektur SOM [8]. Berikut ini merupakan algoritma dari SOM [7]: 1. Inisialisasi jumlah cluster (width x height), jumlah iterasi, learning rate, radius ketetanggaan, dan bobot pada setiap neuron (random dengan nilai kecil). 2. Memilih salah satu vektor input dan disajikan ke jaringan. 3. Setiap neuron pada jaringan diuji untuk menghitung bobot neuron mana yang paling mirip dengan vektor input. Neuron pemenang sering disebut dengan Best Matching Unit (BMU) (Persamaan 1). 4. Menghitung radius ketetanggan dari BMU. Dimulai dengan nilai yang besar kemudian berkurang setiap kali iterasi (Persamaan 2a, 2b). 5. Setiap neuron yang berada pada radius BMU disesuaikan agar mereka lebih mirip dengan vektor input (Persamaan 3a,3b). Semakin dekat neuron dengan BMU, maka semakin bobot itu diubah (Persamaan 3c). 6. Ulangi langkah 2 unuk N iterasi. λ = jumlah iterasi / radius map...(6) Persamaan 3a Bobot baru pada neuron w ij (t+1) = w ij (t) + Θ(t)L(t) ( x j w ij (t))...(7) Persamaan 3b Learning rate L(t) = L 0...(8) Persamaan 3c Distance of BMU Θ (t) =...(9) merupakan jarak antara neuron dengan neuron pemenang yang dapat dicari dengan rumus : (c,i) = r c r i 2 = ( r c(x) r i(x) ) 2 + ( r c(y) r i(y) ) 2...(10) Jika (c,i) σ(t) 2, berarti bahwa neuron i berada pada radius BMU, maka bobot pada neuron tersebut diperbaharui. Untuk menginisialisasi bobot pada setiap cluster, digunakan rumus midpoint (Demuth and Beale). Berikui ini merupakan rumus midpoint (Demuth and Beale) : Wij =... (11) Penjelasan simbol : t = iterasi saat ini Θ = distance of BMU L = learning rate w = bobot pada setiap node x = vektor inputan n = dimensi data T = jumlah iterasi σ = radius λ = time constan r c(x) = letak neuron pemenang pada sumbu x r i(x) = letak neuron i pada sumbu x r c(y) = letak neuron pemenang pada sumbu y r i(y) = letak neuron i pada sumbu y MinPi = nilai terkecil pada variabel input ke i MaxPi = nilai terbesar pada variabel input ke Metodologi Penelitian Persamaan yang digunakan dalam algoritma adalah sebagai berikut: Persamaan 1 Menghitung BMU DistFromInput 2...(3) Persamaan 2a Radius Ketetanggaan σ(t) = σ 0...(4) Untuk menentukan σ 0 dapat dicari dengan rumus : σ 0 = max(width, height) / 2...(5) Gambar 3. Metodologi Penelitian Persamaan 2b Time Constant 3

4 3.1 Studi Literatur Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnaljurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini. 3.2 Pengumpulan Data Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja. Sebelum dilakukan proses clustering, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database. 3.3 Penerapan Metode Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP Tahap Text Preprocessing Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming. Case Folding Input : abstrak dokumen Output : abstrak dengan huruf kecil semua dan hanya ada karakter huruf a sampai z Tahap Pembobotan TFIDF Tahap pembobotan TFIDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming. Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai inputan. Barulah didapatkan bobot TFIDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TFIDF didapat, kemudian dilakukan normalisasi Min Max Tahap Clustering Setelah dilakukan pembobotan TFIDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TFIDF digunakan sebagai inputan. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran (learning rate), radius ketetanggan, serta width dan heighnya. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j (W ij ), dimana i adalah jumlah term yang telah dihilangkan duplikasinya dan j adalah jumlah cluster (perkalian dari widht dan height). Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masingmasing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster. 3.4 Tahap Analisis Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya. Tokenizing Input : hasil case folding Output : katakata yang telah terurai Filtering Input : hasil tokenizing Output : katakata yang bukan termasuk stoplist Stemming Input : hasil filtering Output : kata dasar menggunakan kamus kata dasar dan algoritma Nazief dan Adriani Filtering hasil Stemming Input : hasil stemming Output : katakata yang bukan termasuk stoplist Gambar 4. Proses Text Preprocessing 3.5 Tahap Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 (PD 1) fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas. 4 PEMBAHASAN 4.1 Deskripsi Data Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan pemilahan terhadap dokumen yang terkumpul, didapat dokumen yang siap dilakukan proses selanjutnya. 4

5 Kemudian data disimpan ke dalam database menggunakan MySQL database. 4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lainlain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf a sampai z. Setelah melalui proses case folding, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang katakata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords. Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering, tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan kamus pada stopword. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh. Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filteringstemming. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filteringstemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat. 4.3 Proses TFIDF Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n, dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term/kata tersebut. Proses pembobotan kata/term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency inverse document frequency (TFIDF). Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TFIDF Dok Key1 Key 2 Key 3 Key 4 Key 5 Key 6 D1 tani tindak agroindustri basis agraris padi D2 tani sayur komoditas sayur kebun D3 padi komoditas pokok produksi tanam padi D4 tanam karet komoditas kebun ekspor hujan Langkah pertama pada proses pembobotan TFIDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequencynya (DF) yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2. Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection Term D1 D2 D3 D4 DF tani tindak agroindustri basis agraris sayur komoditas padi pokok produksi Gambar 5 Proses text preprocessing Lalu term yang sudah dicari nilai DFnya diseleksi berdasarkan nilai threshold. Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF. Berdasarkan hasil seleksi kata dengan feature selection DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature 5

6 selection pada dokumen skripsi fakultas Pertanian UNS menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya kata menjadi kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya. Langkah ketiga yaitu perhitungan IDF menggunakan rumus : (log, dimana N adalah jumlah keseluruhan dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TFIDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TFIDF. Tabel 3 Hasil perhitungan TF, DF, IDF, dan TFIDF Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4 Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization Lampiran Tabel 1 merupakan perkiraan tema pada setiap cluster. Sel yang diberi warna hitam merupakan cluster yang tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1 terlihat bahwa terdapat beberapa cluster yang memiliki kecenderungan tema umum yang sama. Selain itu, cluster yang memiliki kecenderungan tema umum yang sama adalah cluster yang berada saling berdekatan. Hal ini disebabkan karena pada algoritma SOM, bobot yang diperbaharui adalah neuron pemenang serta neuron yang terletak didekat neuron pemenang. Oleh karena itu, cluster yang saling berdekatan memiliki kecenderungan tema yang mirip. Sebagai contoh pada tema pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang letaknya saling berdekatan. Selain itu, terlihat bahwa letak cluster C3 berada didekat cluster C2, C11, serta C12 dimana pada cluster tersebut terdapat beberapa dokumen yang juga membahas mengenai pupuk. Disamping itu, ada juga beberapa cluster yang memiliki tema kurang sama antara satu dokumen dengan dokumen lain, seperti pada cluster C14, C23, C34, C42, C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena bagian dokumen yang diolah hanya bagian abstrak saja, sehingga kurang dapat merepresentasikan isi keseluruhan dokumen. Analisis kedua yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi Pangan (ITP), dan D adalah prodi Peternakan. 4.4 Proses Clustering Setelah dilakukan pembobotan TFIDF terhadap term, tahap selanjutnya yaitu melakukan proses clustering. Langkah pertama yaitu menentukan jumlah iterasi, learning rate, radius ketetanggan, width dan height (cluster = width x height). Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah cluster, learningrate serta width dan height sudah melalui beberapa kali percobaan. Kemudian sistem secara otomatis akan membuat bobot secara dengan algoritma Midpoint dengan dimensi m x n, dimana m adalah jumlah cluster dan n adalah jumlah term. Setelah itu dilakukan proses clustering SOM dengan cara seperti pada dasar teori. 4.5 Analisis Hasil Clustering Setelah dilakukan clustering, dokumen yang memiliki banyak kemiripan keyword akan mengelompok menjadi satu. Setelah itu, dilakukan analisis perkiraan tema pada setiap cluster.gambar 4.11 merupakan contoh tampilan hasil pada cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, serta 10 top keyword. Pada cluster C1, kebanyakan dokumen membahas mengenai pupuk yang berfokus pada pengaruh pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil perkiraan tema dapat dilihat pada Lampiran Tabel 1. Tabel 6 Distribusi Frekuensi Cluster per Prodi CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C

7 Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan) CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C Jumlah Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi. Sebagai contoh pada cluster C20 yang pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema umum mengenai pupuk. Pada prodi Agribisnis membahas mengenai analisis faktor produksi luas lahan, benih, pupuk, dan tenaga kerja, sedangkan pada prodi Agroteknologi membahas mengenai pengaruh pemberian pupuk terhadap tanaman. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi antara prodi Agribisnis dan prodi Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema pemanfaatan ekstrak jahe maupun agribisnis jahe, dimana semua prodi pernah melakukan penelitian skripsi dengan mengambil tema pada cluster tersebut. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi dengan semua prodi. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh pada cluster C1 sampai C5 yang sebagian besar membahas mengenai pupuk dan hanya pernah dilakukan penelitian skripsi oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Tabel 7 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis C1 0 C2 0 C3 0 C4 0 C5 0 C C C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C C C19 0 C C C C C24 0 C C C C C C C32 0 C C C C C C C C C C C C C C C47 0 C C C50 0 C C C C C C56 0 C57 0 C58 0 C C60 0 C C C C64 0 C65 0 C66 0 C67 0 C68 0 C C70 0 C C C73 0 C74 0 C75 0 C76 0 C77 0 C C C C Jumlah Ratarata Analisis ketiga yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering setiap prodi pertahunnya. Tabel 7 merupakan pemetaan 7

8 distribusi frekuensi cluster pertahun pada prodi Agribisnis. Bagian tabel yang ditandai dengan warna abu, menunjukkan bahwa pada sel tersebut memiliki jumlah dokumen diatas ratarata. Ratarata pertahun dapat dilihat pada tabel baris terakhir. Hasil ratarata berupa bilangan bulat karena menyatakan jumlah dokumen. Pada kasus ini ratarata dihitung dengan rumus: Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah dokumen diatas ratarata menyebar di beberapa cluster di tiap tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh mahasiswa prodi Agribisnis di tiap tahunnya memang tidak hanya berfokus pada suatu tema tertentu. Tema yang lumayan diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C44, C45, dan C81 dimana pada cluster tersebut diminati oleh mahasiswa selama empat tahun dengan tahun yang berbeda. Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka akan terlihat bahwa tema yang ada di jurusan Agribisnis memang beragam. Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi C C C C C C7 0 C9 0 C C C C C C C17 0 C18 0 C C C C C C C25 0 C26 0 C27 0 C29 0 C30 0 C C C C C35 0 C36 0 C37 0 C38 0 C C40 0 C C C C C45 0 C46 0 C47 0 C48 0 C49 0 C C C C C54 0 C55 0 C56 0 C57 0 Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER Jumlah C58 0 C C60 0 C C62 0 C C64 0 C65 0 C66 0 C67 0 C C C70 0 C71 0 C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C78 0 C79 0 C80 0 C81 0 Jumlah Ratarata Tabel 8 merupakan representasi hasil clustering pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai dengan warna abuabu, menunjukkan jumlah dokumen yang berada diatas ratarata. Nilai ratarata dihitung seperti pada penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki jumlah dokumen diatas ratarata menyebar di tiap tahunnya. Namun apabila disinkronkan dengan Lampiran Tabel 1 mengenai analisis perkiraan tema, sebagian besar tema yang diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal ini berarti tema yang banyak diambil oleh mahasiswa prodi Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk. Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C20 0 C21 0 C22 0 C23 0 C24 0 C25 0 C26 0 C27 0 C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C35 0 C36 0 C37 0 C38 0 C39 0 C C

9 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C C C C45 0 C46 0 C47 0 C C C C C C53 0 C54 0 C55 0 C56 0 C57 0 C58 0 C C63 0 C64 0 C65 0 C66 0 C67 0 C C C C C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C C C80 0 C81 0 Jumlah Ratarata , Tabel 9 merupakan representasi hasil clustering pertahun pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, cluster yang lumayan diminati tiap tahunnya adalah cluster C78 dengan tema mengenai tepung yang berfokus pada kajian karakteristik fiiskokimia tepung maupun pemanfaatan tepung. Pada Tabel 9 sel yang memiliki jumlah diatas ratarata memang hanya dibeberapa cluster saja. Hal ini dimungkinkan karena dokumen skripsi yang ada diprodi ITP masih lumayan sedikit dibandingkan dengan prodi lainnya. Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C26 0 C C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C20 0 C21 0 C22 0 Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) C23 0 C24 0 C25 0 C35 0 C36 0 C C38 0 C C40 0 C41 0 C42 0 C43 0 C44 0 C45 0 C C C C C50 0 C C C C54 0 C C C C C C60 0 C C62 0 C C C C C C68 0 C69 0 C70 0 C71 0 C72 0 C C C C C C C C80 0 C81 0 Jumlah Ratarata Tabel 10 merupakan representasi hasil clustering pertahun pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa cluster yang memiliki sel dengan jumlah dokumen diatas ratarata di tiap tahunnya terletak dibeberapa cluster. Namun apabila dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat 13 cluster yang membahas mengenai tema umum ransum dengan berbagai objek maupun perlakuan. Hal ini menunjukkan bahwa tema yang banyak diambil oleh mahasiswa prodi Peternakan di tiap tahunnya adalah mengenai ransum. 4.6 Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini dilakukan dengan cara bertanya secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan bahwa hasil analisis penelitian ini sesuai dengan kondisi sebenarnya. Untuk tema pada prodi Agribisnis memiliki penyebaran tren tema yang bervariasi karena lingkup bidang kajiannya memang cukup luas. Sedangkan pada prodi 9

10 Agroteknologi, prodi ITP serta prodi Peternakan kurang bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau juga menyampaikan bahwa hasil penelitian ini dapat dijadikan sebagai dasar pengembangan penelitian di prodi Agroteknologi, ITP serta Peternakan agar kedepannya dapat lebih bervariasi lagi. 5 PENUTUP 5.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi.. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Prodi Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada prodi Agroteknologi, tema yang paling banyak diambil adalah tentang pupuk. Pada prodi Peternakan banyak mengambil tema mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi Pangan tema yang banyak diambil adalah mengenai kajian karakteristik atau pemanfaatan tepung, kajian karakteristik fisikokimia dan sensoris. Nasional Teknologi Informasi & Komunikasi Terapan, Isbn [5] Langgeni, D. P., Baizal, ZK. and Firdaus, A.W Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010 (semnasif 2010) ISSN: Yogyakarta [6] Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman [7] Guthikonda, S. M Kohonen SelfOrganizing Maps, shyamguth ATgmail.com Wittenberg University [8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media. [9] Lyonnais, H Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System. 5.2 Saran Pada penelitian ini, terdapat beberapa cluster yang memiliki tema sama, atau terdapat beberapa cluster yang memiliki tema yang tidak terdefinisi (tema kurang sama antara satu dokumen dengan dokumen lain). Hal ini dimungkinkan karena pemilihan jumlah cluster yang kurang optimal. Oleh karena itu, dapat ditambahkan suatu metode yang dapat menentukan jumlah optimal clusternya. Atau dimungkinkan karena bagian dokumen yang dilakukan proses clustering hanya pada bagian abstrak saja, dimana abstrak hanya merupakan gambaran kecil dari penelitian.oleh karena itu untuk penelitian yang akan datang bisa menambahkan bagian dokumen lainnya, seperti BAB I. 6 DAFTAR PUSTAKA [1] Feldman, R. & Sanger, J The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E DATA MINING : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta : ANDI [3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S The Comparison of SOM and Kmeans for Text Clustering. Computer and Information Science. Vol. 3, No. 2 [4] Affandy & Supriyanto, C Kombinasi Teknik Chi Square Dan Singular Value Decomposition Untuk Reduksi Fitur Pada Pengelompokan Dokumen. Seminar 10

11 LAMPIRAN Tabel 1 Perkiraan tema pada setiap cluster C1 C81 (1) (10) (19) 28 (37) Analisis pemasaran (46) Sapi (55) Sapi (64) Pengaruh berbagai perlakuan ransum terhadap performa hewan (73) (2) (11) (20), dalam hal analisis faktor produksi maupun pengaruh pupuk terhadap tanaman (29) Analisis usahatani (38) analisis sikap atau perilaku konsumen (47) (56) Pengaruh penggunaan pakan suplemen terhadap keseimbangan nitrogen sapi (65) Pengaruh berbagai perlakuan ransum terhadap performa hewan (74) (3) Pengaruh media, nutrisi, pupuk pada tanaman (12) (21) Bawang (30) Analisis keterpaduan pasar (39) analisis sikap atau perilaku konsumen (48) Daging (57) (66) (75) (4) Pengaruh media, nutrisi, pupuk pada tanaman, tunas (13) Pengaruh berbagai perlakuan terhadap tanaman (22) pembudidayaan bunga (31) Tumpangsari (40) analisis sikap atau perilaku konsumen (49) Telur (58) Pengaruh Suplementasi Betain dalam (67) (76) (5) Konsentrasi IBA, tunas, kalus 6 (14) (23) (32) Identifikasi morfologi tanaman (41) Buah (50) Pengaruh pemberian ekstrak dalam berbagai hal (59) Jahe, mengenai pemanfaatan ekstrak jahe maupun agribisnis jahe (68) Temulawak, mengenai Pemanfaatan temulawak (77) (15) Seresah, nitrifikasi 16 (24) Padi, terutama pada keragaman genotipe dan fenotipe (33) Kajian mengenai lahan maupun tanah (42) (51) (60) (69) Ubi, mengenai pemanfaatan dan pengolahan (78) Tepung, kajian karakteristik fiiskokimia tepung, pemanfaatan tepung (7) Analisis peran atau strategi komoditi pertanian 8 (25) Sikap petani, formal (34) (43) (52) Sebagian besar membahas mengenai beras (61) Susu, yoghurt (70) Perlakuan terhadap bumbu masak (79) Tempe, mengenai karakteristik fisikokimia serta pengolahan (17) Persepsi petani (26) Evaluasi petani (35) Penyuluhan petani (44) (53) (62) Analisis kinerja keuangan KUD (71) Analisis Pengendalian Persediaan Bahan Baku (80) Strategi pengembangan industri tempe (9) Analisis ketahanan pangan rumah tangga (18) Analisis kebutuhan rumah tangga (27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi pertanian (36) Partisipasi petani maupun masyarakat dalam berbagai kegiatan (45) Analisis kinerja, pengembangan, serta peranan sektor pertanian (54) Analisis penawaran/ permintaan, analisis komparatif usaha (63) Analisis usaha industri (72) Pengembangan agroindustri, analisis Break Even Point (81) Strategi pengembangan agroindustri 11