CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)
|
|
- Sukarno Lie
- 6 tahun lalu
- Tontonan:
Transkripsi
1 CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta veve.rava@gmail.com Sari Widya Sihwi Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta sari.widya.sihwi@gmail.com Meiyanto Eko Sulistyo Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl. Ir. Sutami No 36 A Surakarta mekosulistyo@uns.ac.id ABSTRAK Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan dokumen skripsi. Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma SelfOrganizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu diolah melalui tahap text preprocessing dan pembobotan TF IDF. Pada penelitian ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan lerarning rate sebesar 0,1. Hasil penelitian menunjukkan bahwa ada beberapa cluster yang dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja. Kata kunci : Text Mining, Text Preprocessing, TFIDF, Clustering, SelfOrganizing Map 1. PENDAHULUAN Fakultas Pertanian Universitas Sebelas Maret (UNS) telah menghasilkan banyak penelitian, khususnya penelitian berupa skripsi yang dilakukan oleh mahasiswa S1. Selain tersimpan dalam bentuk buku, dokumen skripsi tersebut juga tersimpan dalam bentuk dokumen pdf maupun database. Namun kumpulan dokumen skripsi tersebut hanya dibiarkan menumpuk begitu saja. Padahal jika diolah, dimungkinkan akan ditemukan suatu pola atau tren yang bermanfaat bagi pihak fakultas. Selama ini, belum ada pihak yang pernal melakukan penelitian terhadap dokumen dokumen skripsi yang ada di UNS khususnya di fakultas Pertanian. Padahal dimungkinkan pola penelitiannya sama ditiap tahunnya, atau dimungkinkan ada beberapa tema skripsi yang dapat dijadikan kolaborasi antar prodi. Oleh karena itu, perlu dilakukan mining terhadap kumpulan dokumen skripsi tersebut. Text mining merupakan variasi dari data mining dimana data yang diolah berupa teks. Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Munculnya text mining didasarkan pada kenyataan bahwa semakin banyak dokumen yang tersimpan dalam bentuk teks dan kadang dokumen tersebut hanya dibiarkan begitu saja. Padahal jika kumpulan dokumen tersebut diolah lebih lanjut, akan didapatkan suatu informasi yang mungkin berguna bagi instansi atau pemiliknya. Salah satu bentuk dari text mining adalah clustering. Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Oleh karena itu, clustering dokumen dapat didefinisikan sebagai suatu kegiatan pengelompokan dokumen menjadi beberapa cluster. Dalam proses pengelompokan tersebut, dokumen yang berada dalam kelompok yang sama akan memiliki kesamaan yang tinggi, begitu pula sebaliknya. Ada beberapa algoritma dalam clustering, salah satunya adalah algoritma SelfOrganizing Map. SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Metode pembelajaran pada SOM adalah unsupervised learning, dimana tidak ada target kelas yang ditetapkan untuk setiap inputan. Penelitian terkait dengan clustering dokumen maupun clustering dengan menggunakan algoritma SOM sudah banyak dilakukan. Salah satunya adalah penelitian oleh Yiheng Chen dan kawankawan [3] yang membandingkan algoritma SOM dengan algoritma KMeans dalam kasus clustering dokumen. Pada penelitian tersebut teridentifikasi bahwa secara keseluruhan kinerja algoritma SOM lebih bagus dari pada algoritma KMeans untuk kasus clustering dokumen. SOM tidak sensitif terhadap inisialisasi awal, ditunjukkan dengan fmeansure yang stabil selama dua puluh kali percobaan. Sedangkan KMeans tidak stabil terhadap inisialisasi awal. Sealin itu jumlah iterasi pada KMeans juga berbeda setiap kali dilakukan percobaan. Ambarwati serta Edi Winarko [9] juga pernah melakukan penelitian dengan judul Pengelompokan Berita Indonesia 1
2 Berdasarkan Histogram Kata Menggunakan SelfOrganizing Map. Pada penelitian tersebut didapatkan hasil bahwa dari tahun 2007 sampai dengan tahun 2009 hasil proses clustering memiliki kecenderungan yang berbeda. Pada tahun 2007 Dan 2009 mempunyai kecenderungan berita yang sama yaitu berita tentang ekonomi, pada tahun 2008 mempunyai kecenderungan berita kriminal dan teknologi. Berdasarkan penelitianpenelitian tersebut, penulis akan mencoba menerapkan metode text mining menggunakan algoritma SOM untuk clustering dokumen skripsi yang ada di fakultas Pertanian UNS. Penelitian ini bertujuan untuk melihat pola skripsi yang ada di fakultas Pertanian UNS yang sebelumnya telah dilakukan proses clustering. Diharapkan dengan dilakukannya penelitian ini dapat memberi masukan dan bahan evaluasi bagi pihak fakultas Pertanian UNS. 2. DASAR TEORI 2.1 Text Mining Text mining dapat didefinisikan secara luas sebagai proses mengekstrak informasi yang berguna dari sumber data teks melalui identifikasi dan eksplorasi pola yang menarik [1]. Permasalahan yang dihadapi pada saat melakukan proses text mining adalah jumlah data yang besar, dimensi yang tinggi, dan terdapat banyak term yang tidak penting [5]. Pada text mining, data yang digunakan umumnya unstructure data, atau minimal semistructure data [9]. Hal ini menyebabkan struktur teks yang tidak jelas, serta bahasa yang berbeda. Oleh karena itu perlu dilakukan tahap text preprocessing untuk mempersiapkan teks menjadi data yang dapat diolah lebih lanjut. 2.2 Text Preprocessing Text Preprocessing adalah tahap mengubah suatu dokumen ke dalam format yang sesuai agar dapat diproses oleh algoritma clustering [4]. Berikut ini tahapan pada text preprocessing [5]: 1. Case Floding, merupakan proses mengubah semua huruf yang ada pada dokumen menjadi huruf kecil. Serta menghilangkan karakter selain huruf a sampai z. 2. Tokenizing, merupakan tahap penguraian string teks menjadi term atau kata. 3. Filtering, merupakan tahap pengambilan katakata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). 4. Stemming, merupakan tahap pengubahan suatu kata menjadi akar katanya dengan menghilangkan imbuhan awalan atau akhiran dari tiap kata hasil filtering. 2.3 TFIDF TFIDF berasal dari kata Term Frequency (TF) dan Inverse Document Frequency (IDF). Term Frequency (TF) merupakan frekuensi kemunculan term dalam sebuah dokumen [6]. Semakin sering suatu term muncul dalam dokumen tertentu, maka nilai tfnya akan lebih tinggi dibandingkan term yang jarang muncul dalam dokumen tersebut. Sedangkan Inverse Dokumen Frequency (IDF) didefinisikan sebagai tingkat pentingnya suatu term [6]. Perhitungan TFIDF adalah perkalian antara TF dan IDF. Berikut ini merupaka rumus dari TF IDF [1] : Keterangan : W (i, j) = tf i,j * (log...(1) W (i, j) = bobot suatu term i terhadap dokumen j tf ij = frekuensi kata i pada dokumen j N = jumlah keseluruhan dokumen DF (i) = jumlah dokumen yang mengandung term i 2.4 DF Feature Selection Feature selection merupakan langkah memilih beberapa fitur (misalnya katakata atau istilah) yang akan digunakan ketika melakukan klasifikasi maupun clustering [10]. Fitur yang terpilih dapat digunakan untuk mewakili semua fitur yang ada pada dokumen. Permasalahan mendasar pada clustering maupun klasifikasi dokumen adalah tingginya dimensi data, sehingga perlu dilakukan feature selection untuk mengurangi dimensi tersebut [5]. Salah satu metode pada feature selection yang banyak digunakan adalah DF (Document Frequency) [10] DF (Document Frequency) adalah jumlah dokumen yang mengandung suatu term tertentu [10]. Jika nilai DF berada diatas atau dibawah nilai threshold yang telah ditentukan, maka term tersebut akan dibuang [5]. Asumsi bahwa term yang muncul dalam sedikit dokumen menunjukkan bahwa term tersebut tidak memiliki pengaruh yang besar dalam proses clustering dokumen. Sedangkan jika term t muncul dalam banyak dokumen, maka tingkat kepentingan term tersebut menjadi kecil karena term yang banyak muncul di berbagai dokumen dapat dianggap sebagai term umum (common term). Sebagai contoh term database mungkin cenderung kurang penting jika terdapat di banyak dokumen pada kumpulan jurnal yang membahas tentang sistem database. 2.5 Min Max Normalization Normalisasi dapat meningkatkan akurasi dan efisiensi algoritma data mining yang melibatkan pengukuran jarak [6]. Salah satu metode normalisasi data adalah Min Max Normalization. Min Max Normalizatio melakukan transformasi linear pada data asli [6]. Misalkan mina dan maxa adalah nilai minimum dan maksimum dari sebuah atribut, Min Max Normalization memetakan sebuah nilai v dari A menjadi v dalam range nilai minimal dan maksimal yang baru, new_mina dan new_maxa [6]. Berikut ini merupakan rumus Minmax Normalization [6]: v = (new_maxa new_mina)+new_mina...(2) 2.6 Clustering Clustering merupakan kegiatan pemecahan data ke dalam sejumlah kelompok atau cluster menurut karakteristik tertentu yang kemudian diberi label sesuai keinginan pemiliknya [2]. Data yang berada dalam satu cluster memiliki nilai kemiripan yang tinggi, sedangkan data yang berada pada cluster lain 2
3 memiliki tingkat kemiripan yang rendah dengan data tersebut [2]. 2.7 SelfOrganizing Map (SOM) SelfOrganizing Map (SOM) merupakan algoritma dengan teknik pelatihan jaringan syaraf tiruan yang pertama kali diperkenalkan oleh Kohonen. SOM menggunakan basis winner takes all, dimana hanya neuron pemenang yang akan diperbaharui bobotnya [2]. Pada SOM, suatu lapisan yang berisi neuronneuron akan menyusun dirinya sendiri berdasarkan input nilai tertentu dalam suatu cluster [2]. Selama proses penyusunan tersebut, cluster yang memiliki jarak paling dekat akan terpilih menjadi pemenang [2]. Neuron yang menjadi pemenang akan memperbaiki nilai bobotnya beserta neruonneuron tetangganya [2]. Arsitektur SOM dapat dilihat pada Gambar.1. Gambar 1. Arsitektur SOM [8]. Berikut ini merupakan algoritma dari SOM [7]: 1. Inisialisasi jumlah cluster (width x height), jumlah iterasi, learning rate, radius ketetanggaan, dan bobot pada setiap neuron (random dengan nilai kecil). 2. Memilih salah satu vektor input dan disajikan ke jaringan. 3. Setiap neuron pada jaringan diuji untuk menghitung bobot neuron mana yang paling mirip dengan vektor input. Neuron pemenang sering disebut dengan Best Matching Unit (BMU) (Persamaan 1). 4. Menghitung radius ketetanggan dari BMU. Dimulai dengan nilai yang besar kemudian berkurang setiap kali iterasi (Persamaan 2a, 2b). 5. Setiap neuron yang berada pada radius BMU disesuaikan agar mereka lebih mirip dengan vektor input (Persamaan 3a,3b). Semakin dekat neuron dengan BMU, maka semakin bobot itu diubah (Persamaan 3c). 6. Ulangi langkah 2 unuk N iterasi. λ = jumlah iterasi / radius map...(6) Persamaan 3a Bobot baru pada neuron w ij (t+1) = w ij (t) + Θ(t)L(t) ( x j w ij (t))...(7) Persamaan 3b Learning rate L(t) = L 0...(8) Persamaan 3c Distance of BMU Θ (t) =...(9) merupakan jarak antara neuron dengan neuron pemenang yang dapat dicari dengan rumus : (c,i) = r c r i 2 = ( r c(x) r i(x) ) 2 + ( r c(y) r i(y) ) 2...(10) Jika (c,i) σ(t) 2, berarti bahwa neuron i berada pada radius BMU, maka bobot pada neuron tersebut diperbaharui. Untuk menginisialisasi bobot pada setiap cluster, digunakan rumus midpoint (Demuth and Beale). Berikui ini merupakan rumus midpoint (Demuth and Beale) : Wij =... (11) Penjelasan simbol : t = iterasi saat ini Θ = distance of BMU L = learning rate w = bobot pada setiap node x = vektor inputan n = dimensi data T = jumlah iterasi σ = radius λ = time constan r c(x) = letak neuron pemenang pada sumbu x r i(x) = letak neuron i pada sumbu x r c(y) = letak neuron pemenang pada sumbu y r i(y) = letak neuron i pada sumbu y MinPi = nilai terkecil pada variabel input ke i MaxPi = nilai terbesar pada variabel input ke Metodologi Penelitian Persamaan yang digunakan dalam algoritma adalah sebagai berikut: Persamaan 1 Menghitung BMU DistFromInput 2...(3) Persamaan 2a Radius Ketetanggaan σ(t) = σ 0...(4) Untuk menentukan σ 0 dapat dicari dengan rumus : σ 0 = max(width, height) / 2...(5) Gambar 3. Metodologi Penelitian Persamaan 2b Time Constant 3
4 3.1 Studi Literatur Studi literatur dilakukan untuk mengumpulkan bahan referensi melalui pencarian di internet, jurnaljurnal penelitian, serta buku pendukung yang relevan dan berhubungan dengan permasalahan, analisis, dan implementasi sistem. Selain itu juga untuk memperkuat pengetahuan dasar dan teori yang digunakan dalam penelitian ini. 3.2 Pengumpulan Data Penelitian ini menggunakan data sekunder yaitu dokumen skripsi yang ada di fakultas Pertanian UNS dengan tahun pembuatan 2008 sampai Data diperoleh dengan cara meminta secara langsung kepada pihak perpustakaan UNS. Data yang akan digunakan untuk masukan pada proses clustering adalah bagian abstrak dokumen yang berbahasa Indonesia saja. Sebelum dilakukan proses clustering, dokumen yang telah terkumpul akan dilakukan pemilahan. Dokumen dengan abstrak yang tidak berbahasa Indonesia atau memiliki keterangan kurang lengkap (tidak ada tahun pembuatan, prodi, atau abstrak) akan dihapus. Selanjutnya, data akan disimpan ke dalam database menggunakan MySQL database. 3.3 Penerapan Metode Pada tahap ini akan dilakukan implementasi sistem agar dapat memudahkan dalam tahap analisis terhadap hasil clustering dokumen penelitian di UNS. Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode dengan menggunakan bahasa pemrograman PHP Tahap Text Preprocessing Tahapan text preprocessing meliputi casse folding, tokenizing, filtering, stemming, serta filtering hasil stemming. Case Folding Input : abstrak dokumen Output : abstrak dengan huruf kecil semua dan hanya ada karakter huruf a sampai z Tahap Pembobotan TFIDF Tahap pembobotan TFIDF diawali dengan menghitung TF dengan cara menghitung frekuensi kemunculan term t dalam sebuah dokumen d pada hasil filtering hasil stemming. Kemudian dicari nilai DF yaitu banyaknya dokumen yang mengandung term t. Lalu dilakukan feature selection pada term tersebut berdasarkan threshold batas maksimal dan minimal yang diberikan. Selanjutnya dilakukan perhitungan IDF dimana hasil DF akan dijadikan sebagai inputan. Barulah didapatkan bobot TFIDF dengan mengalikan hasil TF dengan IDF. Setelah bobot TFIDF didapat, kemudian dilakukan normalisasi Min Max Tahap Clustering Setelah dilakukan pembobotan TFIDF, tahap selanjutnya yaitu melakukan proses clustering dengan menggunakan algoritma SOM. Bobot yang di hasilkan pada tahap TFIDF digunakan sebagai inputan. Setelah itu, menginisialiasasi topologi SOM, jumlah iterasi, laju pembelajaran (learning rate), radius ketetanggan, serta width dan heighnya. Kemudian, menginisialisasi bobot awal dengan matriks bobot berukuran i x j (W ij ), dimana i adalah jumlah term yang telah dihilangkan duplikasinya dan j adalah jumlah cluster (perkalian dari widht dan height). Kemudian diolah menggunakan algoritma SOM yang telah dijelaskan pada dasar teori. Hasil akhir dari tahap ini adalah masingmasing dokumen akan masuk kedalam cluster tertentu dimana satu dokumen hanya akan masuk ke dalam satu cluster. 3.4 Tahap Analisis Pada tahap ini akan dilakukan analisis terhadap hasil clustering dokumen skripsi di fakultas Pertanian UNS. Analisis pertama yaitu analisis mengenai tema pada setiap clusternya. Analisis kedua yaitu analisis mengenai pola yang terbentuk dari hasil clustering. Pola pertama yaitu merepresentasikan hasil cluster antar prodi. Sedangkan pola kedua, merepresentasikan hasil clustering setiap prodi pertahunnya. Tokenizing Input : hasil case folding Output : katakata yang telah terurai Filtering Input : hasil tokenizing Output : katakata yang bukan termasuk stoplist Stemming Input : hasil filtering Output : kata dasar menggunakan kamus kata dasar dan algoritma Nazief dan Adriani Filtering hasil Stemming Input : hasil stemming Output : katakata yang bukan termasuk stoplist Gambar 4. Proses Text Preprocessing 3.5 Tahap Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka perlu dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini akan dilakukan dengan cara bertanya secara langsung kepada Pembantu Dekan 1 (PD 1) fakultas Pertanian UNS. Alasan kenapa memilih PD 1 sebagai pihak validator adalah karena PD 1 merupakan penanggung jawab bagian akademik dan pendidikan fakultas. 4 PEMBAHASAN 4.1 Deskripsi Data Pada penelitian ini data yang digunakan berupa dokumen skripsi yang ada di fakultas Pertanian UNS pada tahun 2008 sampai Bagian dokumen yang digunakan dalam melakukan clustering adalah bagian abstrak. Setelah dilakukan pemilahan terhadap dokumen yang terkumpul, didapat dokumen yang siap dilakukan proses selanjutnya. 4
5 Kemudian data disimpan ke dalam database menggunakan MySQL database. 4.2 Text Preprocessing Pada kasus ini, akan mengambil salah satu dokumen untuk dijadikan sebagai contoh. Abstrak pada dokumen tersebut mempunyai 380 kata dan beberapa karakter seperti titik, koma, dan lainlain. Setelah itu dilakukan proses case folding dengan cara mengubah semua huruf menjadi huruf kecil serta membuang karakter selain huruf a sampai z. Setelah melalui proses case folding, jumlah kata sedikit berkurang dan tersisa 376 kata. Kemudian dilakukan proses tokenizing. Pada proses ini tidak ada pengurangan kata, karena hanya melakukan proses pemecahan kata saja. Selanjutnya dilakukan proses filtering dengan membuang katakata yang cocok dengan kamus stopwords. Pada proses ini, terjadi pengurangan kata dari sebelumnya 376 kata menjadi 168 kata. Hal ini berarti pada abstrak dokumen tersebut terdapat 208 kata yang tidak penting atau stopwords. Proses selanjutnya adalah stemming dengan menggunakan menggunakan algoritma Nazief & Adriani. Tidak ada pengurangan kata pada proses ini, karena hanya merubah bentuk kata menjadi kata dasar. Meskipun sebelumnya sudah dilakukan proses filtering, tapi terkadang ada kata yang setelah dicari kata dasarnya ternyata terdeteksi stopword. Hal ini disebabkan keterbatasan kamus pada stopword. Sehingga perlu dilakukan proses filtering lagi terhadap hasil stemming. Setelah dilakukan filtering lagi terhadap hasil stemming, terjadi pengurangan kata dari sebelumnya 168 kata menjadi 139 kata. Hal ini berarti masih ada 29 kata yang belum terdeteksi stopword pada proses filtering sebelumnya. Gambar 5 merupakan alur dari text preprocessing terhadap cuplikan dokumen contoh. Berdasarkan proses text preprocessing diatas, diketahui bahwa dokumen sampel mengalami pengurangan kata pada proses case folding, filtering dan filteringstemming. Sebelumnya dokumen tersebut mempunyai kata sebanyak 380, lalu pada tahap case folding turun menjadi 376 kata, pada tahap filtering menjadi 168 kata, dan pada tahap filteringstemming menjadi 139 kata. Pengurangan kata tersebut bermanfaat pada saat tahap clustering, karena dapat memperkecil dimensi yang membuat waktu komputasi lebih cepat. 4.3 Proses TFIDF Hasil dari text preprocessing diubah ke dalam bentuk vektor m x n, dimana m adalah jumlah term dan n adalah jumlah dokumen. Kemudian dilakukan pembobotan terhadap term/kata tersebut. Proses pembobotan kata/term weigthing berfungsi untuk memberikan nilai pada sebuah kata. Untuk proses pembobotan kata akan digunakan perhitungan term frequency inverse document frequency (TFIDF). Tabel 1 merupakan sampel dokumen yang telah melalui proses text preprocessing. D1 merupakan dokumen pertama dengan keyword tani, tindak, agroindustri, basis, agraris, dan padi, dan seterusnya. Tabel 1. Contoh dokumen untuk perhitungan TFIDF Dok Key1 Key 2 Key 3 Key 4 Key 5 Key 6 D1 tani tindak agroindustri basis agraris padi D2 tani sayur komoditas sayur kebun D3 padi komoditas pokok produksi tanam padi D4 tanam karet komoditas kebun ekspor hujan Langkah pertama pada proses pembobotan TFIDF adalah menghitung nilai TF dengan cara menghitung kemunculan term pada dokumen tertentu. Langkah kedua menghitung nilai Document Frequencynya (DF) yaitu jumlah dokumen yang mengandung term tersebut. Hasil dari perhitungan TF serta DF dapat dilihat pada Tabel 2. Tabel 2 Hasil dari perhitungan TF serta DF yang belum mengalami proses feature selection Term D1 D2 D3 D4 DF tani tindak agroindustri basis agraris sayur komoditas padi pokok produksi Gambar 5 Proses text preprocessing Lalu term yang sudah dicari nilai DFnya diseleksi berdasarkan nilai threshold. Jika nilai DF berada di bawah min threshold atau di atas max threshold yang telah ditentukan, maka term tersebut akan dibuang. Pada contoh ini hanya diberikan min threshold yaitu 2, dalam arti bahwa term dengan nilai DF dibawah 2 akan dibuang. Lihat hasilnya pada Tabel 3 kolom DF. Berdasarkan hasil seleksi kata dengan feature selection DF, terjadi pengurangan kata dari 15 kata menjadi 5. Kata yang dibuang antara lain tindak, agroindustri, basis, agraris, sayur, pokok, produksi, karet, ekspor, dan hujan. Untuk kasus feature 5
6 selection pada dokumen skripsi fakultas Pertanian UNS menggunakan min threshold 6 dan max threshold 300. Oleh karena itu kata dengan DF dibawah 6 dan kata dengan DF diatas 300 akan dihapus. Dari proses tersebut dihasilkan pengurangan kata dari awalnya kata menjadi kata. Pengurangan kata ini sangat berpengaruh pada waktu komputasi proses selanjutnya. Langkah ketiga yaitu perhitungan IDF menggunakan rumus : (log, dimana N adalah jumlah keseluruhan dokumen dan adalah nilai DF yang sudah dihitung pada proses sebelumnya. Langkah terakhir dalam perhitungan pembobotan adalah perhitungan TFIDF dengan cara mengalikan hasil TF dengan hasil IDF. Lihat Tabel 3 untuk melihat semua hasil dari proses TF, DF, IDF dan TFIDF. Tabel 3 Hasil perhitungan TF, DF, IDF, dan TFIDF Kemudian dilakukan normalisasi data dengan Algoritma Min Max Normalization dan didapatkan hasil seperti pada Tabel 4 Tabel 4 Hasil normalisasi dengan Algoritma Min Max Normalization Lampiran Tabel 1 merupakan perkiraan tema pada setiap cluster. Sel yang diberi warna hitam merupakan cluster yang tidak diisi oleh dokumen. Berdasarkan Lampiran Tabel 1 terlihat bahwa terdapat beberapa cluster yang memiliki kecenderungan tema umum yang sama. Selain itu, cluster yang memiliki kecenderungan tema umum yang sama adalah cluster yang berada saling berdekatan. Hal ini disebabkan karena pada algoritma SOM, bobot yang diperbaharui adalah neuron pemenang serta neuron yang terletak didekat neuron pemenang. Oleh karena itu, cluster yang saling berdekatan memiliki kecenderungan tema yang mirip. Sebagai contoh pada tema pupuk, berada pada cluster 1, 2, 10, 11, 12, dan 19 yang letaknya saling berdekatan. Selain itu, terlihat bahwa letak cluster C3 berada didekat cluster C2, C11, serta C12 dimana pada cluster tersebut terdapat beberapa dokumen yang juga membahas mengenai pupuk. Disamping itu, ada juga beberapa cluster yang memiliki tema kurang sama antara satu dokumen dengan dokumen lain, seperti pada cluster C14, C23, C34, C42, C43, C44, C51, C53 dan C60. Hal ini dimungkinkan karena bagian dokumen yang diolah hanya bagian abstrak saja, sehingga kurang dapat merepresentasikan isi keseluruhan dokumen. Analisis kedua yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering antar prodi. Tabel 6 merupakan distribusi frekuensi cluster pada tiap prodi. Pada baris pertama A adalah prodi Agribisnis, B adalah prodi Agroteknologi, C adalah prodi Ilmu dan Teknologi Pangan (ITP), dan D adalah prodi Peternakan. 4.4 Proses Clustering Setelah dilakukan pembobotan TFIDF terhadap term, tahap selanjutnya yaitu melakukan proses clustering. Langkah pertama yaitu menentukan jumlah iterasi, learning rate, radius ketetanggan, width dan height (cluster = width x height). Pada penelitian ini ditetapkan jumlah iterasi sebesar 1000, learningrate 0.1, serta width dan heigh 9x9. Pemilihan jumlah cluster, learningrate serta width dan height sudah melalui beberapa kali percobaan. Kemudian sistem secara otomatis akan membuat bobot secara dengan algoritma Midpoint dengan dimensi m x n, dimana m adalah jumlah cluster dan n adalah jumlah term. Setelah itu dilakukan proses clustering SOM dengan cara seperti pada dasar teori. 4.5 Analisis Hasil Clustering Setelah dilakukan clustering, dokumen yang memiliki banyak kemiripan keyword akan mengelompok menjadi satu. Setelah itu, dilakukan analisis perkiraan tema pada setiap cluster.gambar 4.11 merupakan contoh tampilan hasil pada cluster C1 yang berisi cluster, id dokumen, judul, prodi, tahun, serta 10 top keyword. Pada cluster C1, kebanyakan dokumen membahas mengenai pupuk yang berfokus pada pengaruh pupuk terhadap ketersediaan maupun serapan suatu unsur. Hasil perkiraan tema dapat dilihat pada Lampiran Tabel 1. Tabel 6 Distribusi Frekuensi Cluster per Prodi CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C
7 Tabel 6 Distribusi Frekuensi Cluster per Prodi (Lanjutan) CLUSTER A B C D Jumlah C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C C Jumlah Berdasarkan Tabel 6, dapat dilihat bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi. Sebagai contoh pada cluster C20 yang pernah dilakukan penelitian skripsi oleh enam mahasiswa prodi Agribisnis dan 16 mahasiswa prodi Agroteknologi dengan tema umum mengenai pupuk. Pada prodi Agribisnis membahas mengenai analisis faktor produksi luas lahan, benih, pupuk, dan tenaga kerja, sedangkan pada prodi Agroteknologi membahas mengenai pengaruh pemberian pupuk terhadap tanaman. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi antara prodi Agribisnis dan prodi Agroteknologi. Contoh lain yaitu pada cluster C59 dengan tema pemanfaatan ekstrak jahe maupun agribisnis jahe, dimana semua prodi pernah melakukan penelitian skripsi dengan mengambil tema pada cluster tersebut. Dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi dengan semua prodi. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Sebagai contoh pada cluster C1 sampai C5 yang sebagian besar membahas mengenai pupuk dan hanya pernah dilakukan penelitian skripsi oleh mahasiswa pada jurursan Agribisnis. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Atau bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Tabel 7 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis C1 0 C2 0 C3 0 C4 0 C5 0 C C C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C C C19 0 C C C C C24 0 C C C C C C C32 0 C C C C C C C C C C C C C C C47 0 C C C50 0 C C C C C C56 0 C57 0 C58 0 C C60 0 C C C C64 0 C65 0 C66 0 C67 0 C68 0 C C70 0 C C C73 0 C74 0 C75 0 C76 0 C77 0 C C C C Jumlah Ratarata Analisis ketiga yaitu analisis mengenai pola yang terbentuk pada pemetaan distribusi frekuensi hasil clustering setiap prodi pertahunnya. Tabel 7 merupakan pemetaan 7
8 distribusi frekuensi cluster pertahun pada prodi Agribisnis. Bagian tabel yang ditandai dengan warna abu, menunjukkan bahwa pada sel tersebut memiliki jumlah dokumen diatas ratarata. Ratarata pertahun dapat dilihat pada tabel baris terakhir. Hasil ratarata berupa bilangan bulat karena menyatakan jumlah dokumen. Pada kasus ini ratarata dihitung dengan rumus: Pada Tabel 7, terlihat bahwa sel yang memiliki jumlah dokumen diatas ratarata menyebar di beberapa cluster di tiap tahunnya. Artinya bahwa tema skripsi yang banyak diambil oleh mahasiswa prodi Agribisnis di tiap tahunnya memang tidak hanya berfokus pada suatu tema tertentu. Tema yang lumayan diminati di tiap tahunnya yaitu pada cluster C29, C35, C39, C44, C45, dan C81 dimana pada cluster tersebut diminati oleh mahasiswa selama empat tahun dengan tahun yang berbeda. Apabila Tabel 7 disinkronkan dengan Lampiran Tabel 1 maka akan terlihat bahwa tema yang ada di jurusan Agribisnis memang beragam. Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi C C C C C C7 0 C9 0 C C C C C C C17 0 C18 0 C C C C C C C25 0 C26 0 C27 0 C29 0 C30 0 C C C C C35 0 C36 0 C37 0 C38 0 C C40 0 C C C C C45 0 C46 0 C47 0 C48 0 C49 0 C C C C C54 0 C55 0 C56 0 C57 0 Tabel 8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi (Lanjutan) CLUSTER Jumlah C58 0 C C60 0 C C62 0 C C64 0 C65 0 C66 0 C67 0 C C C70 0 C71 0 C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C78 0 C79 0 C80 0 C81 0 Jumlah Ratarata Tabel 8 merupakan representasi hasil clustering pertahun pada prodi Agroteknologi. Bagian tabel yang ditandai dengan warna abuabu, menunjukkan jumlah dokumen yang berada diatas ratarata. Nilai ratarata dihitung seperti pada penjelasan sebelumnya. Berdasarkan Table 8, sel yang memiliki jumlah dokumen diatas ratarata menyebar di tiap tahunnya. Namun apabila disinkronkan dengan Lampiran Tabel 1 mengenai analisis perkiraan tema, sebagian besar tema yang diambil pada prodi Agroteknologi adalah mengenai pupuk. Hal ini berarti tema yang banyak diambil oleh mahasiswa prodi Agroteknologi di tiap tahunnya adalah kajian mengenai pupuk. Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C20 0 C21 0 C22 0 C23 0 C24 0 C25 0 C26 0 C27 0 C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C35 0 C36 0 C37 0 C38 0 C39 0 C C
9 Tabel 9 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP C C C C45 0 C46 0 C47 0 C C C C C C53 0 C54 0 C55 0 C56 0 C57 0 C58 0 C C63 0 C64 0 C65 0 C66 0 C67 0 C C C C C72 0 C73 0 C74 0 C75 0 C76 0 C77 0 C C C80 0 C81 0 Jumlah Ratarata , Tabel 9 merupakan representasi hasil clustering pertahun pada prodi Ilmu dan Teknologi Pangan (ITP). Pada tabel tersebut, cluster yang lumayan diminati tiap tahunnya adalah cluster C78 dengan tema mengenai tepung yang berfokus pada kajian karakteristik fiiskokimia tepung maupun pemanfaatan tepung. Pada Tabel 9 sel yang memiliki jumlah diatas ratarata memang hanya dibeberapa cluster saja. Hal ini dimungkinkan karena dokumen skripsi yang ada diprodi ITP masih lumayan sedikit dibandingkan dengan prodi lainnya. Tabel 10 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan C1 0 C2 0 C3 0 C4 0 C5 0 C7 0 C9 0 C10 0 C11 0 C12 0 C13 0 C14 0 C15 0 C17 0 C18 0 C19 0 C26 0 C C29 0 C30 0 C31 0 C32 0 C33 0 C34 0 C20 0 C21 0 C22 0 Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan (Lanjutan) C23 0 C24 0 C25 0 C35 0 C36 0 C C38 0 C C40 0 C41 0 C42 0 C43 0 C44 0 C45 0 C C C C C50 0 C C C C54 0 C C C C C C60 0 C C62 0 C C C C C C68 0 C69 0 C70 0 C71 0 C72 0 C C C C C C C C80 0 C81 0 Jumlah Ratarata Tabel 10 merupakan representasi hasil clustering pertahun pada prodi Peternakan. Berdasarkan tabel tersebut, terlihat bahwa cluster yang memiliki sel dengan jumlah dokumen diatas ratarata di tiap tahunnya terletak dibeberapa cluster. Namun apabila dilihat lagi pada Tabel 4.6 mengenai perkiraan tema, terdapat 13 cluster yang membahas mengenai tema umum ransum dengan berbagai objek maupun perlakuan. Hal ini menunjukkan bahwa tema yang banyak diambil oleh mahasiswa prodi Peternakan di tiap tahunnya adalah mengenai ransum. 4.6 Validasi Untuk mengevaluasi apakah hasil clustering yang diperoleh sudah sesuai atau tidak, maka dilakukan validasi kepada pihak yang lebih mengerti terhadap data tersebut. Validasi pada penelitian ini dilakukan dengan cara bertanya secara langsung kepada Prof. Dr Samanhudi, SP, Msi selaku Pembantu Dekan 1 fakultas Pertanian UNS. Beliau menyatakan bahwa hasil analisis penelitian ini sesuai dengan kondisi sebenarnya. Untuk tema pada prodi Agribisnis memiliki penyebaran tren tema yang bervariasi karena lingkup bidang kajiannya memang cukup luas. Sedangkan pada prodi 9
10 Agroteknologi, prodi ITP serta prodi Peternakan kurang bervariasi karena lingkup bidang kajiannya lebih sempit. Beliau juga menyampaikan bahwa hasil penelitian ini dapat dijadikan sebagai dasar pengembangan penelitian di prodi Agroteknologi, ITP serta Peternakan agar kedepannya dapat lebih bervariasi lagi. 5 PENUTUP 5.1 Kesimpulan Berdasarkan hasil penelitian, dapat disimpulkan bahwa ada beberapa cluster yang pernah dilakukan penelitian skripsi oleh beberapa maupun semua prodi. Hal ini dimungkinkan tema pada cluster tersebut berpotensi untuk dilakukan kolaborasi oleh beberapa maupun semua prodi.. Disamping itu, ada juga cluster yang hanya pernah dilakukan penelitian oleh satu prodi tertentu. Dimungkinkan tema pada cluster tersebut tidak bisa dilakukan kolaborasi antar prodi. Namun bisa jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema tersebut. Prodi Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan tema yang banyak diambil tiap tahunnya hanya di bebetapa cluster. Pada prodi Agroteknologi, tema yang paling banyak diambil adalah tentang pupuk. Pada prodi Peternakan banyak mengambil tema mengenai ransum. Sedangkan pada prodi Ilmu dan Teknologi Pangan tema yang banyak diambil adalah mengenai kajian karakteristik atau pemanfaatan tepung, kajian karakteristik fisikokimia dan sensoris. Nasional Teknologi Informasi & Komunikasi Terapan, Isbn [5] Langgeni, D. P., Baizal, ZK. and Firdaus, A.W Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection. Seminar Nasional Informatika 2010 (semnasif 2010) ISSN: Yogyakarta [6] Han, J. & Kamber, M. (2006). Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufman [7] Guthikonda, S. M Kohonen SelfOrganizing Maps, shyamguth ATgmail.com Wittenberg University [8] Kristanto, A. (2004). Jaringan Syaraf Tiruan (Konsep Dasar, Algoritma dan Aplikasi). Yogyakarta : Gava Media. [9] Lyonnais, H Aplikasi Algoritma Atringmatching pada Analisa Teks (Test Analysis) untuk Decision Support System. 5.2 Saran Pada penelitian ini, terdapat beberapa cluster yang memiliki tema sama, atau terdapat beberapa cluster yang memiliki tema yang tidak terdefinisi (tema kurang sama antara satu dokumen dengan dokumen lain). Hal ini dimungkinkan karena pemilihan jumlah cluster yang kurang optimal. Oleh karena itu, dapat ditambahkan suatu metode yang dapat menentukan jumlah optimal clusternya. Atau dimungkinkan karena bagian dokumen yang dilakukan proses clustering hanya pada bagian abstrak saja, dimana abstrak hanya merupakan gambaran kecil dari penelitian.oleh karena itu untuk penelitian yang akan datang bisa menambahkan bagian dokumen lainnya, seperti BAB I. 6 DAFTAR PUSTAKA [1] Feldman, R. & Sanger, J The Text Mining Handbook. New York: Cambridge University Press. [2] Prasetyo, E DATA MINING : Konsep dan Aplikasi menggunakan MATLAB. Yogyakarta : ANDI [3] Chen, Y., Qin, B., Liu, T., Liu, Y., Li, S The Comparison of SOM and Kmeans for Text Clustering. Computer and Information Science. Vol. 3, No. 2 [4] Affandy & Supriyanto, C Kombinasi Teknik Chi Square Dan Singular Value Decomposition Untuk Reduksi Fitur Pada Pengelompokan Dokumen. Seminar 10
11 LAMPIRAN Tabel 1 Perkiraan tema pada setiap cluster C1 C81 (1) (10) (19) 28 (37) Analisis pemasaran (46) Sapi (55) Sapi (64) Pengaruh berbagai perlakuan ransum terhadap performa hewan (73) (2) (11) (20), dalam hal analisis faktor produksi maupun pengaruh pupuk terhadap tanaman (29) Analisis usahatani (38) analisis sikap atau perilaku konsumen (47) (56) Pengaruh penggunaan pakan suplemen terhadap keseimbangan nitrogen sapi (65) Pengaruh berbagai perlakuan ransum terhadap performa hewan (74) (3) Pengaruh media, nutrisi, pupuk pada tanaman (12) (21) Bawang (30) Analisis keterpaduan pasar (39) analisis sikap atau perilaku konsumen (48) Daging (57) (66) (75) (4) Pengaruh media, nutrisi, pupuk pada tanaman, tunas (13) Pengaruh berbagai perlakuan terhadap tanaman (22) pembudidayaan bunga (31) Tumpangsari (40) analisis sikap atau perilaku konsumen (49) Telur (58) Pengaruh Suplementasi Betain dalam (67) (76) (5) Konsentrasi IBA, tunas, kalus 6 (14) (23) (32) Identifikasi morfologi tanaman (41) Buah (50) Pengaruh pemberian ekstrak dalam berbagai hal (59) Jahe, mengenai pemanfaatan ekstrak jahe maupun agribisnis jahe (68) Temulawak, mengenai Pemanfaatan temulawak (77) (15) Seresah, nitrifikasi 16 (24) Padi, terutama pada keragaman genotipe dan fenotipe (33) Kajian mengenai lahan maupun tanah (42) (51) (60) (69) Ubi, mengenai pemanfaatan dan pengolahan (78) Tepung, kajian karakteristik fiiskokimia tepung, pemanfaatan tepung (7) Analisis peran atau strategi komoditi pertanian 8 (25) Sikap petani, formal (34) (43) (52) Sebagian besar membahas mengenai beras (61) Susu, yoghurt (70) Perlakuan terhadap bumbu masak (79) Tempe, mengenai karakteristik fisikokimia serta pengolahan (17) Persepsi petani (26) Evaluasi petani (35) Penyuluhan petani (44) (53) (62) Analisis kinerja keuangan KUD (71) Analisis Pengendalian Persediaan Bahan Baku (80) Strategi pengembangan industri tempe (9) Analisis ketahanan pangan rumah tangga (18) Analisis kebutuhan rumah tangga (27) Analisis petani dalam adopsi inovasi budidaya tanaman, maupun teknologi pertanian (36) Partisipasi petani maupun masyarakat dalam berbagai kegiatan (45) Analisis kinerja, pengembangan, serta peranan sektor pertanian (54) Analisis penawaran/ permintaan, analisis komparatif usaha (63) Analisis usaha industri (72) Pengembangan agroindustri, analisis Break Even Point (81) Strategi pengembangan agroindustri 11
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana Jurusan Informatika
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciKLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO
F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1. Text Mining Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval (Berry & Kogan, 2010).
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciJURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI)
JURNAL PENGELOMPOKAN SKRIPSI MENGGUNAKAN SELF ORGANIZING MAPS CLUSTERING (STUDI KASUS : PRODI TEKNIK INFORMATIKA UNIVERSITAS NUSANTARA PGRI KEDIRI) CLASSIFICATION OF THESIS USING SELF ORGANIZING MAPS CLUSTERING
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciKLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)
Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih
Lebih terperinciJURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430
JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: 2337-3539 (2301-9271 Print) A-430 VISUALISASI SIMILARITAS TOPIK PENELITIAN DENGAN PENDEKATAN KARTOGRAFI MENGGUNAKAN SELF- ORGANIZING MAPS (SOM) Budi Pangestu,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciTEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciRANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan
RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal
Lebih terperinciBAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciMENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING
ANALISA CLUSTERING MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING (STUDI KASUS : DOKUMEN SKRIPSI JURUSAN KIMIA, FMIPA, UNIVERSITAS SEBELAS MARET) Lynda Rahmawati Jurusan Informatika Universitas
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat
Lebih terperinciIDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI
IDENTIFIKASI KEMATANGAN BUAH TOMAT MENGGUNAKAN SOM (SELF ORGANIZING MAPS) ARTIKEL SKRIPSI Diajukan Untuk Memenuhi Sebagian Syarat Guna Memperoleh Gelar Sarjana Komputer (S.Kom.) Pada Program Studi Teknik
Lebih terperinciOnline News Classification Using Multinomial Naive Bayes
Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,
Lebih terperinciBAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen
BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi
Lebih terperinciAlgoritma Kohonen dalam Mengubah Citra Graylevel Menjadi Citra Biner
Jurnal Ilmiah Teknologi dan Informasia ASIA (JITIKA) Vol.9, No.2, Agustus 2015 ISSN: 0852-730X Algoritma Kohonen dalam Mengubah Citra Graylevel Menjadi Citra Biner Nur Nafi'iyah Prodi Teknik Informatika
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciText Pre-Processing. M. Ali Fauzi
Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Lebih terperinciBAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan
BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara
Lebih terperinciSISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak
SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas
Lebih terperinciHERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.
HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak
PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga
Lebih terperinciJurnal Ilmiah Sains, Teknologi, Ekonomi, Sosial dan Budaya Vol. 1 No. 4 Desember 2017
TEXT MINING DALAM PENENTUAN KLASIFIKASI DOKUMEN SKRIPSI DI PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER BERBASIS WEB Teuku Muhammad Johan dan Riyadhul Fajri Program Studi Teknik Informatika Fakultas
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciIMPLEMENTASI SELF ORGANIZING MAP DALAM KOMPRESI CITRA DIGITAL
IMPLEMENTASI SELF ORGANIZING MAP DALAM KOMPRESI CITRA DIGITAL Hisar M. Simbolon (1) Sri Suwarno (2) Restyandito (3) hisarliska@gmail.com sswn@ukdw.ac.id dito@ukdw.ac.id Abstraksi Kompresi citra digital
Lebih terperinciBAB 3 ANALISIS DAN PERANCANGAN SISTEM
BAB 3 ANALISIS DAN PERANCANGAN SISEM 3.1 Analisis Masalah Pelaksanaan skripsi pada program studi eknik Informatika UNIKOM setiap tahunnya, berdampak pada laporan skripsi yang semakin bertambah dan mengakibatkan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi
Lebih terperinciPEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS
PEMETAAN SEBARAN MUTU PENDIDIKAN DASAR MENGGUNAKAN METODE SELF ORGANIZING MAPS Ahmad Mulla Ali Basthoh 1, Surya Sumpeno 2, dan I Ketut Eddy Purnama 3 Jurusan Teknik Elektro FTI, ITS, Surabaya Kampus ITS
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
7 BAB 2 TINJAUAN PUSTAKA 21 Anatomi Ayam Pengetahuan tentang anatomi ayam sangat diperlukan dan penting dalam pencegahan dan penanganan penyakit Hal ini karena pengetahuan tersebut dipakai sebagai dasar
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Lebih terperinciAPLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA
APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Sistem Rekomendasi 2.1.1 Pengantar Sistem Rekomendasi Proses memberitahukan kepada seseorang atau lebih bahwa sesuatu yang dapat dipercaya, dapat juga merekomendasikan diartikan
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1 Tes Secara harfiah kata tes berasal dari kata bahasa prancis kuno: testum yang berarti piring untuk menyisihkan logam-logam mulia, dalam bahasa Indonesia diterjemahkan dengan
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN
BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)
Lebih terperinciPemanfaatan Aljabar Vektor Pada Mesin Pencari
Pemanfaatan Aljabar Vektor Pada Mesin Pencari Anwar Ramadha 13514013 Program Studi Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung, Jl. Ganesha 10 Bandung 40132, Indonesia
Lebih terperinciBAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
Lebih terperinciPemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity
Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha
Lebih terperinciIMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB
IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi
Lebih terperinciANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K
ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan
Lebih terperinciKLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE
KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE Warih Maharani Fakultas
Lebih terperinciBAB I PENDAHULUAN I.1. Latar Belakang Masalah
BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciAplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian
Aplikasi Algoritma Competitive Network Untuk Clustering Minat Mahasiswa Terhadap Topik-Topik Penelitian Wiji Lestari, Singgih Purnomo STMIK Duta Bangsa Surakarta ABSTRAK Clustering adalah suatu metode
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
Lebih terperinciBAB 1 PENDAHULUAN. 1.1 Latar Belakang
BAB 1 PENDAHULUAN 1.1 Latar Belakang Seiring perkembangan zaman, teknologi di bidang medis saat ini semakin berkembang. Teknologi sendiri sudah menjadi kebutuhan di segala bidang khususnya bidang biomedis.
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciBAB IV IMPLEMENTASI DAN PENGUJIAN
90 BAB IV IMPLEMENTASI DAN PENGUJIAN 4.1 Implementasi Sistem Tahap ini merupakan tahap dari implementasi program serta implementasi dari setiap proses tahap penelitian. 4.1.2 Persiapan Arsitektur Pada
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN 4.1 Analisa Sistem Lama Pada sistem peringkasan dokumen sebelumnya sistem sudah bisa dijalankan namun masih adanya kekurangan pada sistem tersebut yaitu penginputan dokumen
Lebih terperinciANALISIS KLASTERING LIRIK LAGU INDONESIA
ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,
Lebih terperinciPEMBUATAN PETA SIMILARITAS KOTA DI PROVINSI JAWA TENGAH MENGGUNAKAN SELF-ORGANIZING MAPS (SOM)
Pembuatan Peta Similaritas Kota di Provinsi Jawa Tengah... (Palgunadi dkk.) PEMBUATAN PETA SIMILARITAS KOTA DI PROVINSI JAWA TENGAH MENGGUNAKAN SELF-ORGANIZING MAPS (SOM) Sarngadi Palgunadi, Risalatul
Lebih terperinciKLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI
KLASIFIKASI CITRA PARU MENGGUNAKAN MODEL SELF-ORGANIZING MAPS RADIAL BASIS FUNCTION NEURAL NETWORKS (SOM-RBFNN) SKRIPSI Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas
Lebih terperincicommit to user BAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Cosine Similarity Secara umum, fungsi similarity adalah fungsi yang menerima dua buah objek dan mengembalikan nilai kemiripan (similarity) antara kedua objek
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinci1BAB I PENDAHULUAN 1.1 Latar Belakang
1BAB I PENDAHULUAN 1.1 Latar Belakang Dengan banyaknya informasi tertulis atau teks sekarang ini, manusia diharapkan bisa mendapat informasi yang banyak dalam waktu singkat (Bohne dan Borghoff, 2013).
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciCLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION
CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION Diah Pudi Langgeni 1, ZK. Abdurahman Baizal 2, Yanuar Firdaus A.W. 3 Telp (022)7564108 ext 2298 Fax (022)7565934
Lebih terperinciBAB 3 ANALISIS MASALAH DAN PERANCANGAN
BAB 3 ANALISIS MASALAH DAN PERANCANGAN 3.1 State of the Art Pada penelitian sebelumnya sudah ada yang menggunakan metode Stemming untuk preprocessing text dalam mengolah data pelatihan dan data uji untuk
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN SISTEM
BAB III ANALISIS DAN PERANCANGAN SISTEM 3.1. Analisis Masalah Setiap tahunnya, DPP Infokom selaku panitia Pelatihan Aplikasi Teknologi dan Informasi (PATI) Universitas Muhammadiyah Malang menerima ribuan
Lebih terperinciPengelompokan Data DIPA Berbasis Penyerapan Anggaran Menggunakan Metode Self Organizing Map (SOM)
Pengelompokan Data DIPA Berbasis Penyerapan Anggaran Menggunakan Metode Self Organizing Map (SOM) Haerul Harun, I Ketut Eddy Purnomo 2, Eko Mulyanto Y. 3 Mahasiswa Jurusan Teknik Elektro, ITS, Surabaya
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database
Lebih terperinciPENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI
PENILAIAN UJIAN BERTIPE URAIAN (ESSAY) MENGGUNAKAN METODE KEMIRIPAN TEKS (TEXT SIMILARITY) SKRIPSI Disusun Oleh : ADAM ASSHIDIQ M0509001 JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
Lebih terperinciAnalisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering
Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,
Lebih terperinci1. IDENTITAS PENGUSUL 2. JUDUL TUGAS AKHIR 3. LATAR BELAKANG JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI
JURUSAN TEKNIK INFORMATIKA FAKULTAS TEKNOLOGI INFORMASI INSTITUT TEKNLOGI SEPULUH NOPEMBER USULAN TUGAS AKHIR 1. IDENTITAS PENGUSUL NAMA : Helena Nadia Pratiwi NRP : 5110100155 DOSEN WALI : Imam Kuswardayan,
Lebih terperinciII TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,
5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat
Lebih terperinciGambar 1.1 Proses Text Mining [7]
1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
Lebih terperinciIMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN
Seminar Nasional Informatika 205 IMPLEMENTASI VECTOR SPACE MODEL UNTUK MENINGKATKAN KUALITAS PADA SISTEM PENCARIAN BUKU PERPUSTAKAAN Dedi Leman, Khusaeri Andesa 2 Teknik Informasi, Magister Komputer, Universitas
Lebih terperinciBAB II DASAR TEORI. 2.1 Meter Air. Gambar 2.1 Meter Air. Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus
BAB II DASAR TEORI 2.1 Meter Air Gambar 2.1 Meter Air Meter air merupakan alat untuk mengukur banyaknya aliran air secara terus menerus melalui sistem kerja peralatan yang dilengkapi dengan unit sensor,
Lebih terperinciPEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING
PEMANFAATAN ALGORITMA TF/IDF UNTUK SISTEM INFORMASI e-complaint HANDLING Rudhi Ardi Sasmita Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Narotama Surabaya rudhisasmito@gmail.com Abstrak
Lebih terperinciPENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL
Vol. 2, 2017 PENCARIAN FULL TEXT PADA KOLEKSI SKRIPSI FAKULTAS TEKNIK UHAMKA MENGGUNAKAN METODE VECTOR SPACEMODEL Miftahul Ari Kusuma 1*, Mia Kamayani 2, Arry Avorizano 3 Program Studi Teknik Informatika,
Lebih terperinciUKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Sel Darah Merah Sel yang paling banyak di dalam selaput darah adalah sel darah merah atau juga dikenal dengan eritrosit. Sel darah merah berbentuk cakram bikonkaf dengan diameter
Lebih terperinciTraining. Level Transformasi Wavelet. Banyak Fitur. Ukuran Dimensi. 0 40x x30 600
Citra asli Citra ya Inisialisasi: Topologi jaringan, Bobot awal, Lebar tetangga, Nilai laju awal pembelajaran Kriteria pemberhentian Training Error> -6 Epoch< 4 Alpha> HASIL DAN PEMBAHASAN Pada penelitian
Lebih terperinciV HASIL DAN PEMBAHASAN
22 V HASIL DAN PEMBAHASAN 5.1 Karakteristik Video dan Ektraksi Frame Video yang digunakan di dalam penelitian ini merupakan gabungan dari beberapa cuplikan video yang berbeda. Tujuan penggabungan beberapa
Lebih terperinciImplementasi Vector Space Model dalam Pembangkitan Frequently Asked Questions Otomatis dan Solusi yang Relevan untuk Keluhan Pelanggan
Scientific Journal of Informatics Vol. 2, No. 2, November 2015 p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Implementasi Vector Space Model dalam Pembangkitan Frequently
Lebih terperinci