CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

Ukuran: px
Mulai penontonan dengan halaman:

Download "CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)"

Transkripsi

1 CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta veve.rava@gmail.com Sari Widya Sihwi Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta sari.widya.sihwi@gmail.com Meiyanto Eko Sulistyo Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta mekosulistyo@uns.ac.id ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma SelfOrganizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja. Kata kunci : Text Mining, Text Preprocessing, TFIDF, Clustering, SelfOrganizing Map 1. PENDAHULUAN Fakultas Pertanian Universitas Sebelas Maret (UNS) telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas. Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen dokumen skripsi yang ada di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks. Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya. Salah satu bentuk dari text mining adalah clustering. Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma SelfOrganizing Map. SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan. Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawankawan [3] yang membandingkan algoritma SOM dengan algoritma KMeans dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma KMeans untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan fmeansure yang stabil selama dua puluh kali percobaan. Sedangkan KMeans tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada KMeans juga berbeda setiap kali dilakukan percobaan. Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul Pengelompokan Berita Indonesia 1

2 Berdasarkan Histogram Kata Menggunakan SelfOrganizing Map. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi. Berdasarkan penelitianpenelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS. 2. DASAR TEORI 2.1 Text Mining Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Permasalahan yang dihadapi pada saat melakukan proses text mining adalah jumlah data yang besar, dimensi yang tinggi, dan terdapat banyak term yang tidak penting [5]. Pada text mining, data yang digunakan umumnya unstructure data, atau minimal semistructure data [9]. Hal ini menyebabkan struktur teks yang tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu dilakukan tahap text preprocessing untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut. 2.2 Text Preprocessing Text Preprocessing adalah tahap mengubah suatu dokumen ke dalam format yang sesuai agar dapat diproses oleh algoritma clustering [4]. Berikut ini tahapan pada text preprocessing [5]: 1. Case Floding, merupakan proses mengubah semua huruf yang ada pada dokumen menjadi huruf kecil. Serta menghilangkan karakter selain huruf a sampai z. 2. Tokenizing, merupakan tahap penguraian string teks menjadi term atau kata. 3. Filtering, merupakan tahap pengambilan katakata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). 4. Stemming, merupakan tahap pengubahan suatu kata menjadi akar katanya dengan menghilangkan imbuhan awalan atau akhiran dari tiap kata hasil filtering. 2.3 TFIDF TFIDF berasal dari kata Term Frequency (TF) dan Inverse Document Frequency (IDF). Term Frequency (TF) merupakan frekuensi kemunculan term dalam sebuah dokumen [6]. Semakin sering suatu term muncul dalam dokumen tertentu, maka nilai tfnya akan lebih tinggi dibandingkan term yang jarang muncul dalam dokumen tersebut. Sedangkan Inverse Dokumen Frequency (IDF) didefinisikan sebagai tingkat pentingnya suatu term [6]. Perhitungan TFIDF adalah perkalian antara TF dan IDF. Berikut ini merupaka rumus dari TF IDF [1] : Keterangan : W (i, j) = tf i,j * (log...(1) W (i, j) = bobot suatu term i terhadap dokumen j tf ij = frekuensi kata i pada dokumen j N = jumlah keseluruhan dokumen DF (i) = jumlah dokumen yang mengandung term i 2.4 DF Feature Selection Feature selection merupakan langkah memilih beberapa fitur (misalnya katakata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering [10]. Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut [5]. Salah satu metode pada feature selection yang banyak digunakan adalah DF (Document Frequency) [10] DF (Document Frequency) adalah jumlah dokumen yang mengandung suatu term tertentu [10]. Jika nilai DF berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang [5]. Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term database mungkin cenderung kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database. 2.5 Min Max Normalization Normalisasi dapat meningkatkan akurasi dan efisiensi algoritma data mining yang melibatkan pengukuran jarak [6]. Salah satu metode normalisasi data adalah Min Max Normalization. Min Max Normalizatio melakukan transformasi linear pada data asli [6]. Misalkan mina dan maxa adalah nilai minimum dan maksimum dari sebuah atribut, Min Max Normalization memetakan sebuah nilai v dari A menjadi v dalam range nilai minimal dan maksimal yang baru, new_mina dan new_maxa [6]. Berikut ini merupakan rumus Minmax Normalization [6]: v = (new_maxa new_mina)+new_mina...(2) 2.6 Clustering Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Data yang berada dalam satu cluster memiliki nilai kemiripan yang tinggi, sedangkan data yang berada pada cluster lain 2

3 memiliki tingkat kemiripan yang rendah dengan data tersebut [2]. 2.7 SelfOrganizing Map (SOM) SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi neuronneuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster [2]. Selama proses penyusunan tersebut, cluster yang memiliki jarak paling dekat akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang akan memperbaiki nilai bobotnya beserta neruonneuron tetangganya [2]. Arsitektur SOM dapat dilihat pada Gambar.1. Gambar 1. Arsitektur SOM [8]. Berikut ini merupakan algoritma dari SOM [7]: 1. Inisialisasi jumlah cluster (width x height), jumlah iterasi, learning rate, radius ketetanggaan, dan bobot pada setiap neuron (random dengan nilai kecil). 2. Memilih salah satu vektor input dan disajikan ke jaringan. 3. Setiap neuron pada jaringan diuji untuk menghitung bobot neuron mana yang paling mirip dengan vektor input. Neuron pemenang sering disebut dengan Best Matching Unit (BMU) (Persamaan 1). 4. Menghitung radius ketetanggan dari BMU. Dimulai dengan nilai yang besar kemudian berkurang setiap kali iterasi (Persamaan 2a, 2b). 5. Setiap neuron yang berada pada radius BMU disesuaikan agar mereka lebih mirip dengan vektor input (Persamaan 3a,3b). Semakin dekat neuron dengan BMU, maka semakin bobot itu diubah (Persamaan 3c). 6. Ulangi langkah 2 unuk N iterasi. λ = jumlah iterasi / radius map...(6) Persamaan 3a Bobot baru pada neuron w ij (t+1) = w ij (t) + Θ(t)L(t) ( x j w ij (t))...(7) Persamaan 3b Learning rate L(t) = L 0...(8) Persamaan 3c Distance of BMU Θ (t) =...(9) merupakan jarak antara neuron dengan neuron pemenang yang dapat dicari dengan rumus : (c,i) = r c r i 2 = ( r c(x) r i(x) ) 2 + ( r c(y) r i(y) ) 2...(10) Jika (c,i) σ(t) 2, berarti bahwa neuron i berada pada radius BMU, maka bobot pada neuron tersebut diperbaharui. Untuk menginisialisasi bobot pada setiap cluster, digunakan rumus midpoint (Demuth and Beale). Berikui ini merupakan rumus midpoint (Demuth and Beale) : Wij =... (11) Penjelasan simbol : t = iterasi saat ini Θ = distance of BMU L = learning rate w = bobot pada setiap node x = vektor inputan n = dimensi data T = jumlah iterasi σ = radius λ = time constan r c(x) = letak neuron pemenang pada sumbu x r i(x) = letak neuron i pada sumbu x r c(y) = letak neuron pemenang pada sumbu y r i(y) = letak neuron i pada sumbu y MinPi = nilai terkecil pada variabel input ke i MaxPi = nilai terbesar pada variabel input ke Metodologi Penelitian Persamaan yang digunakan dalam algoritma adalah sebagai berikut: Persamaan 1 Menghitung BMU DistFromInput 2...(3) Persamaan 2a Radius Ketetanggaan σ(t) = σ 0...(4) Untuk menentukan σ 0 dapat dicari dengan rumus : σ 0 = max(width, height) / 2...(5) Gambar 3. Metodologi Penelitian Persamaan 2b Time Constant 3

4 3.1 Studi Literatur Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnaljurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini. 3.2 Pengumpulan Data Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja. Sebelum dilakukan proses clustering, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database. 3.3 Penerapan Metode Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP Tahap Text Preprocessing Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming. Case Folding Input : abstrak dokumen Output : abstrak dengan huruf kecil semua dan hanya ada karakter huruf a sampai z Tahap Pembobotan TFIDF Tahap pembobotan TFIDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming. Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai inputan. Barulah didapatkan bobot TFIDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TFIDF didapat, kemudian dilakukan normalisasi Min Max Tahap Clustering Setelah dilakukan pembobotan TFIDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TFIDF digunakan sebagai inputan. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran (learning rate), radius ketetanggan, serta width dan heighnya. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j (W ij ), dimana i adalah jumlah term yang telah dihilangkan duplikasinya dan j adalah jumlah cluster (perkalian dari widht dan height). Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masingmasing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster. 3.4 Tahap Analisis Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya. Tokenizing Input : hasil case folding Output : katakata yang telah terurai Filtering Input : hasil tokenizing Output : katakata yang bukan termasuk stoplist Stemming Input : hasil filtering Output : kata dasar menggunakan kamus kata dasar dan algoritma Nazief dan Adriani Filtering hasil Stemming Input : hasil stemming Output : katakata yang bukan termasuk stoplist Gambar 4. Proses Text Preprocessing 3.5 Tahap Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 (PD 1) fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas. 4 PEMBAHASAN 4.1 Deskripsi Data Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan pemilahan terhadap dokumen yang terkumpul, didapat dokumen yang siap dilakukan proses selanjutnya. 4

5 Kemudian data disimpan ke dalam database menggunakan MySQL database. 4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lainlain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf a sampai z. Setelah melalui proses case folding, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang katakata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords. Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering, tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan kamus pada stopword. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh. Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filteringstemming. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filteringstemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat. 4.3 Proses TFIDF Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n, dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term/kata tersebut. Proses pembobotan kata/term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency inverse document frequency (TFIDF). Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TFIDF Dok Key1 Key 2 Key 3 Key 4 Key 5 Key 6 D1 tani tindak agroindustri basis agraris padi D2 tani sayur komoditas sayur kebun D3 padi komoditas pokok produksi tanam padi D4 tanam karet komoditas kebun ekspor hujan Langkah pertama pada proses pembobotan TFIDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequencynya (DF) yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2. Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection Term D1 D2 D3 D4 DF tani tindak agroindustri basis agraris sayur komoditas padi pokok produksi Gambar 5 Proses text preprocessing Lalu term yang sudah dicari nilai DFnya diseleksi berdasarkan nilai threshold. Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF. Berdasarkan hasil seleksi kata dengan feature selection DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature 5

6 selection pada dokumen skripsi fakultas Pertanian UNS menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya kata menjadi kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya. Langkah ketiga yaitu perhitungan IDF menggunakan rumus : (log, dimana N adalah jumlah keseluruhan dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TFIDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TFIDF. Tabel 3 Hasil perhitungan TF, DF, IDF, dan TFIDF Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4 Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization Lampiran Tabel 1 merupakan perkiraan tema pada setiap cluster. Sel yang diberi warna hitam merupakan cluster yang tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1 terlihat bahwa terdapat beberapa cluster yang memiliki kecenderungan tema umum yang sama. Selain itu, cluster yang memiliki kecenderungan tema umum yang sama adalah cluster yang berada saling berdekatan. Hal ini disebabkan karena pada algoritma SOM, bobot yang diperbaharui adalah neuron pemenang serta neuron yang terletak didekat neuron pemenang. Oleh karena itu, cluster yang saling berdekatan memiliki kecenderungan tema yang mirip. Sebagai contoh pada tema pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang letaknya saling berdekatan. Selain itu, terlihat bahwa letak cluster C3 berada didekat cluster C2, C11, serta C12 dimana pada cluster tersebut terdapat beberapa dokumen yang juga membahas mengenai pupuk. Disamping itu, ada juga beberapa cluster yang memiliki tema kurang sama antara satu dokumen dengan dokumen lain, seperti pada cluster C14, C23, C34, C42, C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena bagian dokumen yang diolah hanya bagian abstrak saja, sehingga kurang dapat merepresentasikan isi keseluruhan dokumen. Analisis kedua yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi Pangan (ITP), dan D adalah prodi Peternakan. 4.4 Proses Clustering Setelah dilakukan pembobotan TFIDF terhadap term, tahap selanjutnya yaitu melakukan proses clustering. Langkah pertama yaitu menentukan jumlah iterasi, learning rate, radius ketetanggan, width dan height (cluster = width x height). Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah cluster, learningrate serta width dan height sudah melalui beberapa kali percobaan. Kemudian sistem secara otomatis akan membuat bobot secara dengan algoritma Midpoint dengan dimensi m x n, dimana m adalah jumlah cluster dan n adalah jumlah term. Setelah itu dilakukan proses clustering SOM dengan cara seperti pada dasar teori. 4.5 Analisis Hasil Clustering Setelah dilakukan clustering, dokumen yang memiliki banyak kemiripan keyword akan mengelompok menjadi satu. Setelah itu, dilakukan analisis perkiraan tema pada setiap cluster.gambar 4.11 merupakan contoh tampilan hasil pada cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, serta 10 top keyword. Pada cluster C1, kebanyakan dokumen membahas mengenai pupuk yang berfokus pada pengaruh pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil perkiraan tema dapat dilihat pada Lampiran Tabel 1. Tabel 6 Distribusi Frekuensi Cluster per Prodi CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C

7 Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan) CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C Jumlah Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi. Sebagai contoh pada cluster C20 yang pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema umum mengenai pupuk. Pada prodi Agribisnis membahas mengenai analisis faktor produksi luas lahan, benih, pupuk, dan tenaga kerja, sedangkan pada prodi Agroteknologi membahas mengenai pengaruh pemberian pupuk terhadap tanaman. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi antara prodi Agribisnis dan prodi Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema pemanfaatan ekstrak jahe maupun agribisnis jahe, dimana semua prodi pernah melakukan penelitian skripsi dengan mengambil tema pada cluster tersebut. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi dengan semua prodi. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh pada cluster C1 sampai C5 yang sebagian besar membahas mengenai pupuk dan hanya pernah dilakukan penelitian skripsi oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Tabel 7 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis C1 0 C2 0 C3 0 C4 0 C5 0 C C C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C C C19 0 C C C C C24 0 C C C C C C C32 0 C C C C C C C C C C C C C C C47 0 C C C50 0 C C C C C C56 0 C57 0 C58 0 C C60 0 C C C C64 0 C65 0 C66 0 C67 0 C68 0 C C70 0 C C C73 0 C74 0 C75 0 C76 0 C77 0 C C C C Jumlah Ratarata Analisis ketiga yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering setiap prodi pertahunnya. Tabel 7 merupakan pemetaan 7

8 distribusi frekuensi cluster pertahun pada prodi Agribisnis. Bagian tabel yang ditandai dengan warna abu, menunjukkan bahwa pada sel tersebut memiliki jumlah dokumen diatas ratarata. Ratarata pertahun dapat dilihat pada tabel baris terakhir. Hasil ratarata berupa bilangan bulat karena menyatakan jumlah dokumen. Pada kasus ini ratarata dihitung dengan rumus: Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah dokumen diatas ratarata menyebar di beberapa cluster di tiap tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh mahasiswa prodi Agribisnis di tiap tahunnya memang tidak hanya berfokus pada suatu tema tertentu. Tema yang lumayan diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C44, C45, dan C81 dimana pada cluster tersebut diminati oleh mahasiswa selama empat tahun dengan tahun yang berbeda. Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka akan terlihat bahwa tema yang ada di jurusan Agribisnis memang beragam. Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi C C C C C C7 0 C9 0 C C C C C C C17 0 C18 0 C C C C C C C25 0 C26 0 C27 0 C29 0 C30 0 C C C C C35 0 C36 0 C37 0 C38 0 C C40 0 C C C C C45 0 C46 0 C47 0 C48 0 C49 0 C C C C C54 0 C55 0 C56 0 C57 0 Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER Jumlah C58 0 C C60 0 C C62 0 C C64 0 C65 0 C66 0 C67 0 C C C70 0 C71 0 C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C78 0 C79 0 C80 0 C81 0 Jumlah Ratarata Tabel 8 merupakan representasi hasil clustering pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai dengan warna abuabu, menunjukkan jumlah dokumen yang berada diatas ratarata. Nilai ratarata dihitung seperti pada penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki jumlah dokumen diatas ratarata menyebar di tiap tahunnya. Namun apabila disinkronkan dengan Lampiran Tabel 1 mengenai analisis perkiraan tema, sebagian besar tema yang diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal ini berarti tema yang banyak diambil oleh mahasiswa prodi Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk. Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C20 0 C21 0 C22 0 C23 0 C24 0 C25 0 C26 0 C27 0 C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C35 0 C36 0 C37 0 C38 0 C39 0 C C

9 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C C C C45 0 C46 0 C47 0 C C C C C C53 0 C54 0 C55 0 C56 0 C57 0 C58 0 C C63 0 C64 0 C65 0 C66 0 C67 0 C C C C C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C C C80 0 C81 0 Jumlah Ratarata , Tabel 9 merupakan representasi hasil clustering pertahun pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, cluster yang lumayan diminati tiap tahunnya adalah cluster C78 dengan tema mengenai tepung yang berfokus pada kajian karakteristik fiiskokimia tepung maupun pemanfaatan tepung. Pada Tabel 9 sel yang memiliki jumlah diatas ratarata memang hanya dibeberapa cluster saja. Hal ini dimungkinkan karena dokumen skripsi yang ada diprodi ITP masih lumayan sedikit dibandingkan dengan prodi lainnya. Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C26 0 C C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C20 0 C21 0 C22 0 Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) C23 0 C24 0 C25 0 C35 0 C36 0 C C38 0 C C40 0 C41 0 C42 0 C43 0 C44 0 C45 0 C C C C C50 0 C C C C54 0 C C C C C C60 0 C C62 0 C C C C C C68 0 C69 0 C70 0 C71 0 C72 0 C C C C C C C C80 0 C81 0 Jumlah Ratarata Tabel 10 merupakan representasi hasil clustering pertahun pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa cluster yang memiliki sel dengan jumlah dokumen diatas ratarata di tiap tahunnya terletak dibeberapa cluster. Namun apabila dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat 13 cluster yang membahas mengenai tema umum ransum dengan berbagai objek maupun perlakuan. Hal ini menunjukkan bahwa tema yang banyak diambil oleh mahasiswa prodi Peternakan di tiap tahunnya adalah mengenai ransum. 4.6 Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini dilakukan dengan cara bertanya secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan bahwa hasil analisis penelitian ini sesuai dengan kondisi sebenarnya. Untuk tema pada prodi Agribisnis memiliki penyebaran tren tema yang bervariasi karena lingkup bidang kajiannya memang cukup luas. Sedangkan pada prodi 9

10 Agroteknologi, prodi ITP serta prodi Peternakan kurang bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau juga menyampaikan bahwa hasil penelitian ini dapat dijadikan sebagai dasar pengembangan penelitian di prodi Agroteknologi, ITP serta Peternakan agar kedepannya dapat lebih bervariasi lagi. 5 PENUTUP 5.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi.. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Prodi Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada prodi Agroteknologi, tema yang paling banyak diambil adalah tentang pupuk. Pada prodi Peternakan banyak mengambil tema mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi Pangan tema yang banyak diambil adalah mengenai kajian karakteristik atau pemanfaatan tepung, kajian karakteristik fisikokimia dan sensoris. Nasional Teknologi Informasi & Komunikasi Terapan, Isbn [5] Langgeni, D. P., Baizal, ZK. and Firdaus, A.W Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010 (semnasif 2010) ISSN: Yogyakarta [6] Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman [7] Guthikonda, S. M Kohonen SelfOrganizing Maps, shyamguth ATgmail.com Wittenberg University [8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media. [9] Lyonnais, H Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System. 5.2 Saran Pada penelitian ini, terdapat beberapa cluster yang memiliki tema sama, atau terdapat beberapa cluster yang memiliki tema yang tidak terdefinisi (tema kurang sama antara satu dokumen dengan dokumen lain). Hal ini dimungkinkan karena pemilihan jumlah cluster yang kurang optimal. Oleh karena itu, dapat ditambahkan suatu metode yang dapat menentukan jumlah optimal clusternya. Atau dimungkinkan karena bagian dokumen yang dilakukan proses clustering hanya pada bagian abstrak saja, dimana abstrak hanya merupakan gambaran kecil dari penelitian.oleh karena itu untuk penelitian yang akan datang bisa menambahkan bagian dokumen lainnya, seperti BAB I. 6 DAFTAR PUSTAKA [1] Feldman, R. & Sanger, J The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E DATA MINING : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta : ANDI [3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S The Comparison of SOM and Kmeans for Text Clustering. Computer and Information Science. Vol. 3, No. 2 [4] Affandy & Supriyanto, C Kombinasi Teknik Chi Square Dan Singular Value Decomposition Untuk Reduksi Fitur Pada Pengelompokan Dokumen. Seminar 10

11 LAMPIRAN Tabel 1 Perkiraan tema pada setiap cluster C1 C81 (1) (10) (19) 28 (37) Analisis pemasaran (46) Sapi (55) Sapi (64) Pengaruh berbagai perlakuan ransum terhadap performa hewan (73) (2) (11) (20), dalam hal analisis faktor produksi maupun pengaruh pupuk terhadap tanaman (29) Analisis usahatani (38) analisis sikap atau perilaku konsumen (47) (56) Pengaruh penggunaan pakan suplemen terhadap keseimbangan nitrogen sapi (65) Pengaruh berbagai perlakuan ransum terhadap performa hewan (74) (3) Pengaruh media, nutrisi, pupuk pada tanaman (12) (21) Bawang (30) Analisis keterpaduan pasar (39) analisis sikap atau perilaku konsumen (48) Daging (57) (66) (75) (4) Pengaruh media, nutrisi, pupuk pada tanaman, tunas (13) Pengaruh berbagai perlakuan terhadap tanaman (22) pembudidayaan bunga (31) Tumpangsari (40) analisis sikap atau perilaku konsumen (49) Telur (58) Pengaruh Suplementasi Betain dalam (67) (76) (5) Konsentrasi IBA, tunas, kalus 6 (14) (23) (32) Identifikasi morfologi tanaman (41) Buah (50) Pengaruh pemberian ekstrak dalam berbagai hal (59) Jahe, mengenai pemanfaatan ekstrak jahe maupun agribisnis jahe (68) Temulawak, mengenai Pemanfaatan temulawak (77) (15) Seresah, nitrifikasi 16 (24) Padi, terutama pada keragaman genotipe dan fenotipe (33) Kajian mengenai lahan maupun tanah (42) (51) (60) (69) Ubi, mengenai pemanfaatan dan pengolahan (78) Tepung, kajian karakteristik fiiskokimia tepung, pemanfaatan tepung (7) Analisis peran atau strategi komoditi pertanian 8 (25) Sikap petani, formal (34) (43) (52) Sebagian besar membahas mengenai beras (61) Susu, yoghurt (70) Perlakuan terhadap bumbu masak (79) Tempe, mengenai karakteristik fisikokimia serta pengolahan (17) Persepsi petani (26) Evaluasi petani (35) Penyuluhan petani (44) (53) (62) Analisis kinerja keuangan KUD (71) Analisis Pengendalian Persediaan Bahan Baku (80) Strategi pengembangan industri tempe (9) Analisis ketahanan pangan rumah tangga (18) Analisis kebutuhan rumah tangga (27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi pertanian (36) Partisipasi petani maupun masyarakat dalam berbagai kegiatan (45) Analisis kinerja, pengembangan, serta peranan sektor pertanian (54) Analisis penawaran/ permintaan, analisis komparatif usaha (63) Analisis usaha industri (72) Pengembangan agroindustri, analisis Break Even Point (81) Strategi pengembangan agroindustri 11

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)

JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI) JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI) CLASSIFICATION OF THESIS USING SELF ORGANIZING MAPS CLUSTERING

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430 JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: 2337-3539 (2301-9271 Print) A-430 VISUALISASI SIMILARITAS TOPIK PENELITIAN DENGAN PENDEKATAN KARTOGRAFI MENGGUNAKAN SELF- ORGANIZING MAPS (SOM) Budi Pangestu,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING ANALISA CLUSTERING MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING (STUDI KASUS : DOKUMEN SKRIPSI JURUSAN KIMIA, FMIPA, UNIVERSITAS SEBELAS MARET) Lynda Rahmawati Jurusan Informatika Universitas

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

IDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI

IDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI IDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom.) Pada Program Studi Teknik

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

Algoritma Kohonen dalam Mengubah Citra Graylevel Menjadi Citra Biner

Algoritma Kohonen dalam Mengubah Citra Graylevel Menjadi Citra Biner Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.9, No.2, Agustus 2015 ISSN: 0852-730X Algoritma Kohonen dalam Mengubah Citra Graylevel Menjadi Citra Biner Nur Nafi'iyah Prodi Teknik Informatika

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga

Lebih terperinci

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017

Jurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017 TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

IMPLEMENTASI SELF ORGANIZING MAP DALAM KOMPRESI CITRA DIGITAL

IMPLEMENTASI SELF ORGANIZING MAP DALAM KOMPRESI CITRA DIGITAL IMPLEMENTASI SELF ORGANIZING MAP DALAM KOMPRESI CITRA DIGITAL Hisar M. Simbolon (1) Sri Suwarno (2) Restyandito (3) hisarliska@gmail.com sswn@ukdw.ac.id dito@ukdw.ac.id Abstraksi Kompresi citra digital

Lebih terperinci

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

BAB 3 ANALISIS DAN PERANCANGAN SISTEM BAB 3 ANALISIS DAN PERANCANGAN SISEM 3.1 Analisis Masalah Pelaksanaan skripsi pada program studi eknik Informatika UNIKOM setiap tahunnya, berdampak pada laporan skripsi yang semakin bertambah dan mengakibatkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS

PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS Ahmad Mulla Ali Basthoh 1, Surya Sumpeno 2, dan I Ketut Eddy Purnama 3 Jurusan Teknik Elektro FTI, ITS, Surabaya Kampus ITS

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA 7 BAB 2 TINJAUAN PUSTAKA 21 Anatomi Ayam Pengetahuan tentang anatomi ayam sangat diperlukan dan penting dalam pencegahan dan penanganan penyakit Hal ini karena pengetahuan tersebut dipakai sebagai dasar

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sistem Rekomendasi 2.1.1 Pengantar Sistem Rekomendasi Proses memberitahukan kepada seseorang atau lebih bahwa sesuatu yang dapat dipercaya, dapat juga merekomendasikan diartikan

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

Pemanfaatan Aljabar Vektor Pada Mesin Pencari

Pemanfaatan Aljabar Vektor Pada Mesin Pencari Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan

Lebih terperinci

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian

Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian Wiji Lestari, Singgih Purnomo STMIK Duta Bangsa Surakarta ABSTRAK Clustering adalah suatu metode

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring perkembangan zaman, teknologi di bidang medis saat ini semakin berkembang. Teknologi sendiri sudah menjadi kebutuhan di segala bidang khususnya bidang biomedis.

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

BAB IV IMPLEMENTASI DAN PENGUJIAN

BAB IV IMPLEMENTASI DAN PENGUJIAN 90 BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Sistem Tahap ini merupakan tahap dari implementasi program serta implementasi dari setiap proses tahap penelitian. 4.1.2 Persiapan Arsitektur Pada

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

PEMBUATAN PETA SIMILARITAS KOTA DI PROVINSI JAWA TENGAH MENGGUNAKAN SELF-ORGANIZING MAPS (SOM)

PEMBUATAN PETA SIMILARITAS KOTA DI PROVINSI JAWA TENGAH MENGGUNAKAN SELF-ORGANIZING MAPS (SOM) Pembuatan Peta Similaritas Kota di Provinsi Jawa Tengah... (Palgunadi dkk.) PEMBUATAN PETA SIMILARITAS KOTA DI PROVINSI JAWA TENGAH MENGGUNAKAN SELF-ORGANIZING MAPS (SOM) Sarngadi Palgunadi, Risalatul

Lebih terperinci

KLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI

KLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI KLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

commit to user BAB II TINJAUAN PUSTAKA

commit to user BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

1BAB I PENDAHULUAN 1.1 Latar Belakang

1BAB I PENDAHULUAN 1.1 Latar Belakang 1BAB I PENDAHULUAN 1.1 Latar Belakang Dengan banyaknya informasi tertulis atau teks sekarang ini, manusia diharapkan bisa mendapat informasi yang banyak dalam waktu singkat (Bohne dan Borghoff, 2013).

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION Diah Pudi Langgeni 1, ZK. Abdurahman Baizal 2, Yanuar Firdaus A.W. 3 Telp (022)7564108 ext 2298 Fax (022)7565934

Lebih terperinci

BAB 3 ANALISIS MASALAH DAN PERANCANGAN

BAB 3 ANALISIS MASALAH DAN PERANCANGAN BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN SISTEM

BAB III ANALISIS DAN PERANCANGAN SISTEM BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan

Lebih terperinci

Pengelompokan Data DIPA Berbasis Penyerapan Anggaran Menggunakan Metode Self Organizing Map (SOM)

Pengelompokan Data DIPA Berbasis Penyerapan Anggaran Menggunakan Metode Self Organizing Map (SOM) Pengelompokan Data DIPA Berbasis Penyerapan Anggaran Menggunakan Metode Self Organizing Map (SOM) Haerul Harun, I Ketut Eddy Purnomo 2, Eko Mulyanto Y. 3 Mahasiswa Jurusan Teknik Elektro, ITS, Surabaya

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI

PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI

1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI INSTITUT TEKNLOGI SEPULUH NOPEMBER USULAN TUGAS AKHIR 1. IDENTITAS PENGUSUL NAMA : Helena Nadia Pratiwi NRP : 5110100155 DOSEN WALI : Imam Kuswardayan,

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN

IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas

Lebih terperinci

BAB II DASAR TEORI. 2.1 Meter Air. Gambar 2.1 Meter Air. Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus

BAB II DASAR TEORI. 2.1 Meter Air. Gambar 2.1 Meter Air. Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus BAB II DASAR TEORI 2.1 Meter Air Gambar 2.1 Meter Air Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus menerus melalui sistem kerja peralatan yang dilengkapi dengan unit sensor,

Lebih terperinci

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING

PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING Rudhi Ardi Sasmita Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Narotama Surabaya rudhisasmito@gmail.com Abstrak

Lebih terperinci

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL

PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI 2.1 Sel Darah Merah Sel yang paling banyak di dalam selaput darah adalah sel darah merah atau juga dikenal dengan eritrosit. Sel darah merah berbentuk cakram bikonkaf dengan diameter

Lebih terperinci

Training. Level Transformasi Wavelet. Banyak Fitur. Ukuran Dimensi. 0 40x x30 600

Training. Level Transformasi Wavelet. Banyak Fitur. Ukuran Dimensi. 0 40x x30 600 Citra asli Citra ya Inisialisasi: Topologi jaringan, Bobot awal, Lebar tetangga, Nilai laju awal pembelajaran Kriteria pemberhentian Training Error> -6 Epoch< 4 Alpha> HASIL DAN PEMBAHASAN Pada penelitian

Lebih terperinci

V HASIL DAN PEMBAHASAN

V HASIL DAN PEMBAHASAN 22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa

Lebih terperinci

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan

Implementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently

Lebih terperinci