MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS

Ukuran: px
Mulai penontonan dengan halaman:

Download "MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS"

Transkripsi

1 MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS Hario Guritno 1, Stefanus Santosa 2 1 Pascasarjana Teknik Informatika Universitas Dian Nuswantoro 2 Politeknik Negeri Semarang ABSTRACT Information in the form of a text document can be found at any time on print media. Every time the community is faced with the current wave of information like the arrival in the form of unstructured text documents and have penetrated our lives and culture. Unstructured information comes closer all the entities of the world community. The mass media published the newspaper every day is the biggest contributor to human relations around the world. KOMPAS newspaper published every Sunday always insert the rubric of short stories in it. There is a problem to distinguish the genre of stories with one another. This research proposed a model of classify KOMPAS short stories with K-Means algorithm to get the solution. Accuracy of this proposed model using the Davies Bouldin Index (DBI) is Keywords: clustering, genre, K-Means. 1. PENDAHULUAN Informasi yang berkembang sebagai bagian relasi antarmanusia dalam peradaban modern saat ini, setiap hari diproduksi media massa cetak. Perkembangan itu dapat dilihat pada segenap media yang berkait dengan teks dokumen, yang menguasai seluruh entitas masyarakat dunia. Gelombang teks dokumen menyebar ke seluruh dunia, karena semua entitas dunia menggunakan interaksi dalam bentuk teks dokumen. Teks dokumen yang kini sudah merambah hidup dan budaya manusia ini sering tidak terstruktur. Hal ini memunculkan masalah dalam pemahaman kategori/ tema/ inti/ isi pesan yang terkandung dalam dokumen. Gelombang informasi dalam format yang tidak terstruktur hadir setiap hari dalam media penerbitan koran, salah satunya adalah rubrik cerita pendek (cerpen) yang setiap hari Minggu muncul di koran KOMPAS. Harian KOMPAS terbit sejak 28 Juni 1965, yang berarti telah published hingga kini (Januari 2015) dalam rentang waktu 49 tahun dan 7 bulan. Jika hitung tiap tahun diisi 57 minggu, maka dapat dihitung KOMPAS Minggu sudah terbit lebih dari kali. Pengelompokan atau klaterisasi genre cerpen KOMPAS Minggu secara manual dapat dilakukan apabila telah mendapatkan pengertian tentang tema/ inti ceritanya. Namun klasterisasi genre cerpen KOMPAS Minggu tak bisa dilakukan berdasarkan hasil pembacaan secara manual saja. Cerpen KOMPAS Minggu terbit satu minggu sekali dan telah mencapai jumlah besar yang tak mungkin bisa dihafal berdasar pengamatan selagi membaca. Cerpen KOMPAS Minggu diisi oleh teks dokumen hasil kreativitas para Cerpenis berbagai kalangan sehingga sangat beragam isinya dan sangat beragam judul dan temanya, sehingga tidak tepat bila dilakukan klasterisasi berdasarkan judulnya saja. KOMPAS memiliki sirkulasi oplah rata-rata eksemplar per hari, dengan rata-rata jumlah pembaca mencapai orang perhari yang terdistribusi ke seluruh wilayah Indonesia.. Hasil survey pembaca tahun 2008, Profil pembaca koran KOMPAS mayoritas berasal dari kalangan (Strata Ekonomi dan Sosial) menengah ke atas yang tercermin dari latar belakang pendidikan dan kondisi keuangan. Munculnya cerpen yang hadir tiap pekan dalam penerbitan KOMPAS, menghadirkan banyak cerpen yang inti ceritanya hampir mirip dan nyaris saling terkait. Inilah yang menyebabkan masyarakat mengalami kesulitan ketika berhadapan dengan banyak sekali cerpen dan harus membedakan satu per satu secara manual, karena tak bisa teridentifikasi sewaktu membaca saja pps. dinus. ac. id

2 Banyak metode penelitian yang dikembangkan dalam melakukan klasterisasi dari sekumpulan besar teks dokumen yang beredar dan kini menjadi satu tantangan yang besar. M. Weber, M. Welling dan P.Perona, menggunakan unsupervised clustering untuk pengelompokan dokumen. Klasterisasi jika dilakukan secara manual membutuhkan waktu lama dan menyulitkan. Klasterisasi sangat memerlukan upaya berupa mekanisme yang cepat dan obyektif. Dalam area text minning dan information retrieval, pemanfaatan unsupervised clustering sangat banyak dilakukan [1]. Anil K. Jain, et.al. menegaskan bahwa secara umum terdapat dua teknik utama dalam proses klasterisasi yaitu hierarchical dan partitional[2]. Dyah Herawatie dkk. melakukan penelitian dan perbandingan dilakukan dengan menggunakan F- Measure dan akurasi sebagai ukuran kualitas ketepatan hasil pengelompokan terhadap artikel media masa berbahasa Indonesia yang diambil dari website KOMPAS dan Detik [3]. Menurut Bridge - melalui Dyah Herawatie dkk. -, penelitian itu tidaklah gampang karena dalam analisis teks yang dijalankan harus menghadapi sekitar 80% - 85% bentuk informasi tersebut dalam format tidak terstruktur. Kesulitan ini muncul dalam penelitian teks dokumen dari ranah pengelompokan dokumen (clustering). Hasil penelitian Dyah Herawatie dkk. yang membandingkan penggunaan K- Means, Bisecting K-Means, K-Median dan K-Medoid ternyata hasil terbaik adalah K-Means yang hanya dengan menggunakan 10% sampai 30% fitur yang digunakan telah menghasilkan pengelompokan yang memuaskan [3]. Mohammad Rizal Arief, dkk. melakukan penelitian klasterisasi teks menggunakan metode Max- Max Roughness (MMR) dengan pengayaan similaritas kata dan hasil yang diperoleh menunjukkan bahwa metode ini dibandingkan hasil metode K-Means dengan pembobotan ternyata dapat meningkatkan kualitas hasil klasterisasi rata-rata sebesar 30,28% [4]. Diah Pudi Langgeni, dkk., melakukan penelitian analisis terhadap kumpulan artikel-artikel yang berasal dari media surat kabar KOMPAS ( sebanyak 120 artikel dengan 6 kategori dan 225 artikel dengan 6 kategori dalam penelitiannya tentang perbandingan metode feature selection yang menggunakan Term Contributiondan Document Frequency. Kesimpulan yang dapat diambil adalah bahwa nilai precision dan entropy pada kedua percobaan di atas, memiliki pola yang hampir sama, namun masih fluktuatif. Hal ini berarti feature selection tidak selalu dapat memperbaiki kualitas atau performansi clustering. Pada percobaan pertama, performansi clustering mengalami penurunan pada pembuangan term sebesar 40%. Oleh karena itu perlu dicari titik maksimal pada feature selection yang menghasilkan nilai performansi yang terbaik. Pada kedua percobaan di atas, diperoleh hasil bahwa feature selection akan memperoleh hasil terbaik pada pembuangan term 96% untuk Term Contributiondan 94% untuk Document Frequency [5]. Kestrilia Rega Prilianti, dkk. membuat aplikasi text mining untuk automasi penentuan tren topik dengan metode K-Means Clustering di Universitas Ma Chung - Malang, ternyata hasilnya diperoleh rata-rata nilai purity sebesar 0,76 yang artinya sekitar 76% dokumen yang diolah telah berhasil dikelompokkan dengan benar oleh sistem [6]. Amir Hamzah menyatakan eksperimennya menunjukkan bahwa pembobotan sampel dapat meningkatkan kinerja klastering sebesar 12,8% untuk pembobotan dengan keyword dan title dan meningkatkan kinerja klastering 9,8% untuk pembobotan dengan title saja [7]. Alternatif yang ada menurut penulis adalah dengan melakukan pengelompokan cerpen-cerpen KOMPAS menggunakan algoritma K-Means. K-Means klastering memiliki kemampuan yang baik. Algoritma ini dikenal simpel, sederhana dan dapat melakukan klasterisasi text dokumen besar.varian klastering K-Means dipilih menjadi metode penelitian genre cerpen KOMPAS dengan tujuan memberikan batasan dan perbedaan genre cerpen KOMPAS dari segenap kemiripan yang ada dalam cerpen KOMPAS. Klastering cerpen KOMPAS menggunakan metoda Unsupervised Feature selection. Berkaitan dengan metode ini Han dan Kamber menyatakan bahwa teknik unsupervised metode clustering dapat dilakukan melalui pendekatan partitional clustering, hierarchical clustering, density-based clustering, grid-based clustering dan model-based clustering [8]. Michael Steinbach, George Karypis and Vipin Kumar, menyimpulkan bahwa klasterisasi dokumen bertujuan membagi dokumen dalam beberapa kelompok sedemikian hingga dokumen-dokumen dalam klaster yang sama (intra-klater) memiliki kesamaan yang tinggi, sementara dokumen-dokumen dalam klaster yang berbeda (inter-klaster) memiliki kesamaan yang rendah [9]. pps. dinus. ac. id, 39

3 Guna mengukur akurasi dari model yang terbentuk dapat digunakan beberapa alat ukur. Desy Purwaningtyas Putri dkk., dalam penelitian indikator ketenagakerjaan di Jawa Timur, hasil penelitiannya mengarah pada validasi pengukuran akurasi dengan segenap pilihan metode yang diterapkan. Pengukuran dengan Indeks Davies Bouldin (DBI) adalah metode pengukuran terbaik. Hasil penelitian menyebutkan DBI yang minimum yaitu 0,202 menghasilkan 6 kelompok [10]. Indeks Davies Bouldin (DBI) dipandang lebih akurat dibanding pengukuran akurasi menggunakan Jarak Mahalanobis dan Jarak Korelasi Pearson, Metode Hierarchis yang mengedepankan Single Linkage, Average Linkage, Complete Linkage, Ward dan Centroid [11]. 2. LANDASAN TEORI 2.1. Text mining Pengelompokan teks dokumen atau klasterisasi jika dilakukan secara manual membutuhkan waktu lama dan menyulitkan. Untuk klasterisasi teks dokumen besar sangat memerlukan upaya berupa mekanisme yang cepat dan objektif. Dalam area text minning dan information retrieval, pemanfaatan unsupervised clustering sangat banyak dilakukan [1]. Dalam klasterisasi terdapat dua teknik utama dalam proses klasterisasi yaitu hierarchical dan partitional [2]. Pada system text mining terdiri dari komponen text preprocessing, feature selection dan komponen data mining. Komponen text preprocessing berfungsi untuk mengubah data tekstual yang tidak terstruktur sebagaimana dokumen ke dalam data terstruktur dan disimpan ke dalam basis data. Fitur selection akan memilih kata yang tepat dan berpengaruh. Komponen data mining akan menjalankan teknik data mining pada output dari komponen sebelumnya [3] Text Preprocessing Tahap preprocessing dalam text mining pada dokumen berupa case folding, tokenizing, filtering, stemming, tagging dan analyzing. Case folding menjalankan tugas mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan. Tahap tokenizing juga dikenal sebagai parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token.tahapan ini bisa juga menggunakan algoritma stoplist (membuang kata-kata yang tidak penting) atau wordlist (menyimpan kata penting). Kelompok stoplist atau stopword adalah kata-kata yang tidak deskriptif yang bisa dibuang dalam kaidah bag-of-words. Dalam hal ini contoh stopword adalah yang, dan, dari, di dan seterusnya. Untuk mendapatkan kondisi teks dalam bentuk bersih (clean), maka dilakukan penghilangan kata awalan dan akhiran serta penghilangan kata yang tidak perlu dari seluruh rangkaian teks yang saat ini terdapat pada kata dalam Kamus Besar Bahasa Indonesia. Dari kata pada kamus, hanya didapatkan teks yang setiap saat digunakan sebanyak kata, lainnya dipandang sangat tidak perlu diolah (bag words). Tahap stemming adalah tahapan mencari root kata dari tiap kata hasil filtering. Pada tahapan ini berlangsung proses pengembalian bentukan kata ke dalam suatu representasi yang sama. Tahap tagging yakni tahap mencari bentuk awal/root dari tiap kata lampau atau kata hasil stemming. Tagging tidak dipakai untuk teks berbahasa Indonesia disebabkan teks bahasa Indonesia tidak memiliki bentuk lampau. Terakhir adalah analyzing yaitu tahap penentuan seberapa jauh keterhubungan antar-kata-kata antardokumen yang ada. Untuk melakukan analisis pada tahap analyzing dapat digunakan algoritma IF/IDF(Term Frequency Inversed Document Frequency) dan algoritma Vector Space Model Clustering Sebuah klaster adalah sekumpulan objek yang digabung bersama karena persamaan atau kedekatannya pps. dinus. ac. id

4 Clustering (klastering) didefinisikan sebagai upaya mengelompokkan data ke dalam klaster sedemikian sehingga data di dalam klaster yang sama memiliki lebih kesamaan dibandingkan dengan data pada klaster yang berbeda. Bisa juga diartikan sebagai proses untuk mendefinisikan pemetaan. Pengklasteran pada penelitian ini menggunakan algoritma K Means. K Means Clustering adalah metode kuantisasi vektor, berasal dari pemrosesan sinyal, yang populer untuk analisis cluster dalam data mining. K-Means clustering bertujuan untuk partisi n pengamatan ke dalam kelompok k. Setiap pengamatan milik cluster dengan rata-rata terdekat, melayani sebagai prototipe dari cluster. K-Means Clustering adalah salah satu algoritma yang dipandang bagus untuk proses klasterisasi. (1) K-Means memilih secara acak k buah data sebagai centroid. Kemudian menempatkan data dalam cluster yang terdekat, dihitung dari titik tengah cluster (centroid). Centroid baru akan ditentukan bila semua data telah ditempatkan dalam cluster terdekat. Proses penentuan centroid dan penempatan data dalam cluster diulangi sampai nilai centroid konvergen. 3. MODEL KLASTERISASI GENRE CERPEN KOMPAS MENGGUNAKAN K-MEANS Kerangka pemikiran dari penelitian ini dimaksudkan untuk menciptakan Model Klasterisasi Genre Cerpen KOMPAS. Penyusunan model ini dilakukan untuk sekumpulan cerpen (cerita pendek) yang dimuat di harian KOMPAS yang terbit tiap hari Minggu. Sejak 1965 jumlah penerbitan cerpen telah mencapai lebih dari kali dalam berbagai genre. Pengelompokan atau klaterisasi genre cerpen KOMPAS Minggu secara manual dapat dilakukan apabila telah mendapatkan pengertian tentang tema/ inti ceritanya. Namun klasterisasi genre cerpen KOMPAS Minggu tak bisa dilakukan berdasarkan hasil pembacaan secara manual saja. Pekerjaan klasterisasi dokumen dalam jumlah besar memang tidak bisa dilakukan dalam tempo cepat tanpa melibatkan algoritma komputasi. Penelitian ini memanfaatkan kemampuan klasterisasi yang dimiliki oleh algoritma K-Means. Algoritma ini paling banyak dikenal, dan dasar pemikirannya sangat sederhana. K-Means merupakan salah satu metode pengelompokan data nonhierarki (sekatan, partitional) yang berusaha mempartisi data yang ada ke dalam bentuk dua atau lebih kelompok. Algoritma ini mempartisi data ke dalam kelompok sedemikian rupa agar data yang berkarakteristik sama dimasukkan ke dalam satu kelompok yang sama dan data yang berkarakteristik berbeda dikelompokkan ke dalam kelompok yang lain. Hal ini dilakukan secara bertahap hingga diperoleh kelompok yang tetap. Berikut ini adalah ilustrasi kemampuan K-Means dalam melakukan partisi mulai dari sebelum ditemukannya partisi kelompok ( gambar 1.a hingga ditemukannya partisi kelompok yang terdiri dari tiga kluster (gambar 1.d). Gambar 1. Ilustrasi Kemampuan Partisi K-Means dalam Klasterisasi Sebelum K-Means melakukan tugas pengelompokan, diperlukan informasi awal tentang objek yang menjadi bahan kajian; termasuk berapa kira-kira jumlah cluster yang mungkin. Teknik ini menentukan objek ke dalam k kelompok atau cluster awal. Penentuan k kelompok awal sangat membantu K-Means dalam proses klasterisasi. pps. dinus. ac. id, 41

5 Pada penelitian ini pengelompokan awal diberikan dalam 4 kategori: a. Kategori cerpen Keluarga. b. Kategori cerpen Percintaan. c. Kategori cerpen Relegius. d. Kategori cerpen Sejarah. Empat kategori ini menjadi awal empat pusat klaster yang digunakan K-Means untuk menentukan anggota- anggota klaster pada setiap pusat klaster. Penentuan anggota dilakukan dengan mengidentifikasi kemiripan antar-objek. K-Means mampu mencari kemiripan objek yang satu dengan yang lain dengan mencari jarak kemiripan dan ketidakmiripan.. Jika jarak dua objek atau dua titik cukup dekat, maka dua objek itu mirip. Semakin dekat berarti semakin tinggi kemiripannya. Misalnya X = {x1, x2, x3,....., xn} adalah himpunan titik data dan V = {v1, v2,..., Vc} adalah himpunan pusat. a. Secara acak dipilih 'c' pusat klaster. b. Perhitungan jarak antara setiap titik data dan pusat klaster. c. Penetapan titik data ke pusat cluster yang jauh dari pusat cluster minimal semua pusat klaster. d. Perhitungan ulang pusat cluster baru menggunakan:.. (2) 'ci' merupakan jumlah titik data dalam klaster. e. Perhitungan ulang jarak antara setiap titik data dan pusat klaster yang diperoleh baru. f. Jika tidak ada titik data yang dipindahkan kemudian berhenti, jika tidak dilakukan perhitungan ulang dari langkah c. Berdasarkan penjelasan di atas dengan kesederhanaan algoritma K-Means dan kemampuannya dalam menentukan kemiripan objek satu dengan yang lain hingga dicapai konvergensi, maka dapat diduga bahwa K-Means mampu melakukan klasterisasi genre cerpen KOMPAS dengan akurasi yang baik. Pengukuran akurasi dilakukan dengan Indeks Davies Bouldin (DBI). Hasil penelitian ini berupa model yang di-proposed sebagai Model Klasterisasi Genre Cerpen KOMPAS Menggunakan K-Means. 4. METODE PENELITIAN 4.1. Perhitungan Nilai Document Frequency Document Frequency adalah jumlah dokumen yang mengandung suatu term tertentu. Tiap term akan dihitung nilai Document Frequency-nya (DF). Lalu term tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang telah ditentukan, maka term tersebut akan dibuang Perhitungan Term Contribution Ide dasar Term Contributionadalah bahwa hasil dari clustering text sangat tergantung pada kesamaan dokumen, kontribusi dari sebuah term dapat dipandang sebagai kontribusinya terhadap kesamaan dokumen Perhitungan Term Frequensy (TF) Term Frequency adalah suatu metode untuk menghitung bobot tiap term dalam text. Pada metode ini, tiap term diasumsikan memiliki nilai kepentingan yang sebanding dengan jumlah kemunculan term tersebut pada text. Bobot sebuah term t pada sebuah text dirumuskan dalam persamaan berikut: TF (t k, d j) = f (t k, d j) (3) 4.4. Perhitungan Inverse Document Frequency (IDF) Metode Inverse Document Frequency (IDF) adalah pembobotan yang menghitung kemunculan sebuah token pada kumpulan dokumen pps. dinus. ac. id

6 Nilai IDF sebuah term dirumuskan dalam: IDF (t) = log (N /df (t)) (4) 4.5. Clustering Proses pengklasteran dilakukan dengan tahapan sebagai berikut. Input: vektor dokumen D, k. Output: k cluster dokumen. a. pemilihan secara acak vektor sebagai centroid b. perulangan penempatan data (vektor) dalam cluster atau centroid terdekat. perhitungan centroid baru dari cluster yang terbentuk. c. hingga centroid tidak berubah lagi Pengukuran Akurasi Guna mengukur akurasi dari model yang terbentuk dapat digunakan beberapa alat ukur. Desy Purwaningtyas Putri dkk., dalam penelitian indikator ketenagakerjaan di Jawa Timur, hasil penelitiannya mengarah pada validasi pengukuran akurasi dengan segenap pilihan metode yang diterapkan. Pengukuran dengan Indeks Davies Bouldin (DBI) 5. HASIL PENELITIAN Hasil Pengumpulan Data Dari sekitar lebih dari kali KOMPAS berdasarkan rutinitas penerbitan sejak 1965, dapat dihimpun sampel lewat perburuan virtual sebanyak 100 file cerpen. Penetapan parameter Genre pada Data Set sebagai titik centroid. Parameter genre pada Data Set: Data 1 : genre cerpen Keluarga. Data 2 : genre cerpen Percintaan. Data 3 : genre cerpen Relegius. Data 4 : genre cerpen Sejarah. Tabel berikut ini menunjukkan kategori awal yang ditetapkan dan jumlah cerpen yang dianalisis. Jumlah Cerpen KOMPAS yang Diteliti NO GENRE JUMLAH 1. Cerpen Keluarga Cerpen Percintaan Cerpen Relegius Cerpen Sejarah 25 Total 100 Hasil Pengklasteran Menggunakan Metode K-Means Clustering Sebelum pengklasteran dilakukan pemilihan genre cerpen KOMPAS untuk menentukan parameter dalam pembuatan Data Set. Dalam penelitian ini dipilih 4 klaster, meliputi: klaster Keluarga, klaster Percintaan, klaster Religius dan klaster Sejarah. Masing-masing kategori diwakili 2 cerpen, meliputi: a. Cerpen Keluarga diwakili oleh cerpen-cerpen: Ibu Tahu Rahasiaku karya Puthut EA dan Lakilaki Pemanggul Goni karya Budi Darma. b. Cerpen Percintaan diwakili oleh cerpen-cerpen: Cintaku Jauh di Pulau Komodo karya Seno Gumiro Ajidarma dan Kekasih Bulan Sepenggal karya Eka Kurniawan. c. Cerpen Relegius diwakili oleh cerpen-cerpan: Agama Apa yang Pantas bagi Pohon-Pohon? karya Eko Triono dan Botol Kubur karya Arman AZ. pps. dinus. ac. id, 43

7 d. Cerpen Sejarah diwakili oleh cerpen-cerpen: Tiada Darah di Lamalera karya Martin Aleida dan Tanah Merah karya Dwicipta. Daftar Pengklasteran Cerpen Hasil Penelitian NO. GENRE SEBELUM SETELAH CERPEN PROSES PROSES 1. Keluarga Religius Sejarah Percintaan 25 9 Dari proses klasterisasi yang telah dilakukan diperoleh hasil seperti yang tercantum pada tabel di atas. Terdapat perbedaan antara pengelompokan yang dilakukan secara manual dengan pengelompokan yang dilakukan oleh K-Means Clustering. Perbedaan terbesar ada pada hasil analisis genre Keluarga, yang diikuti semakin kecil pada genre Sejarah, Percintaan, dan Religius. Tingkat kepercayaan terhadap kebenaran Model Klasterisasi Genre Cerpen KOMPAS Menggunakan K-Means ini dapat dibuktikan melalui pengukuran akurasi dari model tersebut dengan menggunakan Davies Bouldin Index (DBI). Hasil Perhitungan Akurasi Menggunakan Davies Bouldin Index (DBI) Metode validasi klaster dari hasil klasterisasi menggunakan Indeks Davies Bouldin yang merupakan pendekatan pengukuran jarak intra-klaster [11]. Davies Bouldin Index (DBI) dikenalkan oleh David L. Davies dan Donald W. Bouldin tahun Pengukur akurasi DBI ini adalah metrik untuk mengevaluasi hasil algoritma clustering. Davies-Bouldin Index digunakan untuk memaksimalkan jarak inter-cluster di antara cluster Ci dan Cj, pada saat yang sama juga mencoba meminimalkan jarak antar-titik dalam cluster. (9) DB 1. k k R i i 1... (5) C = {C 1,.., C k} merupakan clustering dari N objek Dengan: R i max R ij j 1,.. k, i j.(6) R ij i j var( C ) var( C i c i c j j ).(7) Keterangan: C i : cluster ke i c i :centroid cluster ke i Ukuran dari Davies-Bouldin Index adalah nilai rata-rata yang similar antara setiap cluster dan itu merupakan yang paling mirip. Apabila memiliki nilai Davies-Bouldin yang lebih rendah berarti konfigurasi cluster telah baik. Hasil akhir validasi/akurasi Davies Bouldin Index (DBI) yang mencapai menunjukkan bahwa proses klastering dengan K-Means ini mencapai tingkat akurasi tinggi dengan konfigurasi klaster sangat baik pps. dinus. ac. id

8 6. KESIMPULAN Penelitian yang dilakukan dengan metode eksperimen terhadap cerpen KOMPAS ini dimaksudkan untuk membedakan cerpen satu dengan yang lain yang selama ini sulit dideteksi. Secara manual cerpencerpen sulit dikelompokkan berdasarkan genrenya karena terlihat mirip antar-satu dengan yang lain. Guna mengatasi hal tersebut maka disusunlah model klasterisasi genre cerpen menggunakan algoritma K-Means. Dari hasil pengujian terhadap Model Klasterisasi Genre Cerpen KOMPAS Menggunakan K-Means yang terbentuk menunjukkan Index Davies Bouldin berada pada Hal ini membuktikan bahwa tingkat akurasi model ini menunjukkan hasil yang sesuai dengan harapan. UCAPAN TERIMAKASIH Penelitian ini dapat terselesaikan karena bantuan berbagai pihak. Oleh karena itu peneliti berterimakasih kepada pihak-pihak yang mendukung terlaksananya penelitian yaitu para pembimbing penelitian, penguji,, serta pihak-pihak lain yang mendukung terlaksananya penelitian ini. PERNYATAAN ORIGINALITAS Saya menyatakan dan bertanggung jawab dengan sebenarnya bahwa Artikel ini adalah hasil karya sendiri kecuali cuplikan dan ringkasan yang masing-masing telah saya jelaskan sumbernya.[ HARIO GURITNO-P ] DAFTAR PUSTAKA [1] M. Wiber, M. Welling, and P.Perona. Unsupervised Learning of Models for Recognition. In Proc. 6 th Euro.Conf,Comput,Vision, Dublin, Ireland, Juni [2] Jain A.K,, Murty, M.N. and Flyn, P.J Data Clustering: A Review. ACM Computing Survey Vol 31, No.3, Hal [3] Dyah Herawatie dkk.. Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Seminar Nasional Aplikasi Teknologi Informasi (SNATI) Yogyakarta, [4] Mohammad Rizal Arif, Daniel O Siahaan, Isye Arieshanti, Klaterisasi Teks Menggunakan Metode Max-Max Roughness (MMR) dengan Pengayaan Similaritas Kata, Jurnal Ilmiah KURSOR Menuju Solusi Teknologi Informasi, Vol.5, No.4, 4 Juli 2010, pp [5] Diah Pudi Langgeni, ZK. Abdurahman Baizal, Yanuar Firdaus, A.W, Clustering Artikel Berita Berbahasa Indonesia Menggunakan Unsupervised Feature Selection, Seminar Nasional Informatika 2010 (SemnasIF 2010), pp. D-1 D10. [6] Kestrilia Rega Prilianti dan Hendra Wijaya, Aplikasi Text mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering, Jurnal Cybermatika Vol.2 No.1.Juni [7] Amir Hamzah, Peningkatan Kinerja Clustering Dokumen Teks Menggunakan Pembobotan Sampel, Seminar Nasional Informatika 2011 (SemnasIF 20111), 2011, pp. D-8 DD-15. [8] Han, J., and Kamber, M.,, Data mining: Concept and Technique, Morgan Kaufman, [9] Michael Steinbach, George Karypis dan Vipin Kumar, A Comparison of Document Clustering Techniques, Technical Report Report Number: Date of Submission: 5/23/2000, Department of Computer Science and Engineering University of Minnesota, Minneapolis, MN USA, [10] Putri, Dessy Purwaningtyas, Swasono Rahardjo, Hendro Permadi. Analisis Kelompok Metode Hirarki untuk Pengelompokan Kota/Kabupaten di Jawa Timur Berdasarkan Indikator Ketenagakerjaan Jurnal Matematika-Fakultas MIPA, Universitas Negeri Malang, Vol.1, No.2, 2013 [11] Davies, D.L.; Bouldin, D.W. A Cluster Separation Measure, IEEE Transactions on Pattern Analysis and Machine Intelligence (2); 224, pps. dinus. ac. id, 45

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Dyah Herawatie Prodi Sistem Informasi Fakultas Sains dan Teknologi Universitas Airlangga Surabaya, Indonesia dy4h_h3r4@yahoo.com

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering

Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering Aplikasi Text Mining untuk Automasi Penentuan Tren Topik Skripsi dengan Metode K-Means Clustering Kestrilia Rega Prilianti Program Studi Teknik Informatika Universitas MaChung kestrilia@machung.ac.id ABSTRAK

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION

CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION CLUSTERING ARTIKEL BERITA BERBAHASA INDONESIA MENGGUNAKAN UNSUPERVISED FEATURE SELECTION Diah Pudi Langgeni 1, ZK. Abdurahman Baizal 2, Yanuar Firdaus A.W. 3 Telp (022)7564108 ext 2298 Fax (022)7565934

Lebih terperinci

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan

BAB II LANDASAN TEORI. 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Peringkasan Teks Otomatis (Automatic Text Summarization) Peringkasan Teks Otomatis (Automatic Text Summarization) merupakan pembuatan rangkuman dari sebuah sumber teks secara

Lebih terperinci

KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS

KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS 1 KLASTERISASI PROSES SELEKSI PEMAIN MENGGUNAKAN ALGORITMA K-MEANS (Study Kasus : Tim Hockey Kabupaten Kendal) Alith Fajar Muhammad Jurusan Teknik Informatika FIK UDINUS, Jl. Nakula No. 5-11 Semarang-50131

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA

PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Ketersediaan informasi yang semakin banyak menjadikan ringkasan sebagai kebutuhan yang sangat penting (Mulyana, 2010). Menurut (Hovy, 2001) Ringkasan merupakan teks

Lebih terperinci

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA

APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA APLIKASI PENGKATEGORIAN DOKUMEN DAN PENGUKURAN TINGKAT SIMILARITAS DOKUMEN MENGGUNAKAN KATA KUNCI PADA DOKUMEN PENULISAN ILMIAH UNIVERSITAS GUNADARMA Adhit Herwansyah Jurusan Sistem Informasi, Fakultas

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K

ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF A B S T R A K ANALISA KOMPETENSI DOSEN DALAM PENENTUAN MATAKULIAH YANG DIAMPU MENGGUNAKAN METODE CF-IDF Oleh : Tacbir Hendro Pudjiantoro A B S T R A K Kompetensi dosen adalah salah satu bagian yang utama dalam penunjukan

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1. Tinjauan Penelitian Terdahulu Penelitian sebelumnya dilakukan oleh Rahmatulloh (2016). Penelitian yang berjudul Rancang Bangun Sistem Informasi Pencarian Benda Hilang Lost &

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING

MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING ANALISA CLUSTERING MENGGUNAKAN METODE K-MEANS DAN HIERARCHICAL CLUSTERING (STUDI KASUS : DOKUMEN SKRIPSI JURUSAN KIMIA, FMIPA, UNIVERSITAS SEBELAS MARET) Lynda Rahmawati Jurusan Informatika Universitas

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang BAB 1 PENDAHULUAN 1.1 Latar Belakang Tinjauan atau review seseorang yang ditujukan kepada suatu objek atau produk sangat berpengaruh terhadap penilaian publik atas produk tersebut (Sahoo, 2013). Review

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING

TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TWEET SUMMARIZATION BERDASARKAN TRENDING TOPIC TWITTER MENGGUNAKAN ALGORITMA TF-IDF DAN SINGLE LINKAGE AGGLOMERATIVE HIERARCHICAL CLUSTERING TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun

Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Vol. 4, No. 1, Tahun Vol. 4, No. 1, Tahun 2015 28 Jurnal Aksara Komputer Terapan Politeknik Caltex Riau Website : https://jurnal.pcr.ac.id/index.php/jakt/about/index Email : pustaka@pcr.ac.id Visualisasi Pengembangan Judul

Lebih terperinci

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA

PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA PENGEMBANGAN APLIKASI KALEIDOSKOP BERITA OTOMATIS BERBAHASA INDONESIA Afri Yosela Putri 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik Negeri Malang,

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING

IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Penyimpanan dokumen secara digital berkembang dengan pesat seiring meningkatnya teknologi. Kondisi tersebut memunculkan masalah untuk mengakses informasi yang diinginkan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM) Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL

PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL PENENTUAN KEMIRIPAN TOPIK PROYEK AKHIR BERDASARKAN ABSTRAK PADA JURUSAN TEKNIK INFORMATIKA MENGGUNAKAN METODE SINGLE LINKAGE HIERARCHICAL Nur Rosyid M, Entin Martiana, Damitha Vidyastana, Politeknik Elektronika

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi

Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Penerapan Algoritma Cosine Similarity dan Pembobotan TF-IDF pada Sistem Klasifikasi Dokumen Skripsi Rizki Tri Wahyuni 1, Dhidik Prastiyanto 2, dan Eko Supraptono 3 Jurusan Teknik Elektro, Fakultas Teknik,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means

Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK dzeky@akakom.ac.id

Lebih terperinci

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM)

ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM) ANALISIS KETERKAITAN DATA TRANSAKSI PENJUALAN BUKU MENGGUNAKAN ALGORITMA APRIORI DAN ALGORITMA CENTROID LINKAGE HIERARCHICAL METHOD (CLHM) Nurani 1, Hamdan Gani 2 1 nurani_nanni@yahoo.com, 2 hamdan.gani.inbox@gmail.com

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB

IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB IMPLEMENTASI METODE TERM FREQUENCY INVERSED DOCUMENT FREQUENCE (TF-IDF) DAN VECTOR SPACE MODEL PADA APLIKASI PEMBERKASAN SKRIPSI BERBASIS WEB Abdul Rokhim 1), Achmad ainul yaqin 2) 1) Program Studi/Prodi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity

Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF dan Cosine Similarity Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 1, Januari 2018, hlm. 306-312 http://j-ptiik.ub.ac.id Klasifikasi Berita Online dengan menggunakan Pembobotan TF-IDF

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR

KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR KLASIFIKASI TEKS BERBASIS ONTOLOGI UNTUK DOKUMEN TUGAS AKHIR BERBAHASA INDONESIA TUGAS AKHIR Persyaratan Guna Meraih Gelar Sarjana Strata I Teknik Informatika Universitas Muhammadiyah Malang Nama : Ayu

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.

Lebih terperinci

BAB III ANALISIS DAN PERANCANGAN

BAB III ANALISIS DAN PERANCANGAN BAB III ANALISIS DAN PERANCANGAN Dalam bab ini akan dijabarkan analisa, yang meliputi analisa masalah dan gambaran umum masalah yang sedang dibahas, perancangan sistem serta desain antarmuka (user interface)

Lebih terperinci

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku

BAB I PENDAHULUAN. masyarakat tanpa kertas (paperless society) (Hernawati, 2005). Berdasarkan buku BAB I PENDAHULUAN 1.1 Latar Belakang Revolusi teknologi informasi ikut mengubah perilaku masyarakat modern dengan mencoba masuk dan menghirup atmosfer kebudayaan baru, menjadikan masyarakat tanpa kertas

Lebih terperinci

BAB II LANDASAN TEORI 2.1. Sistem Pendukung keputusan Pengertian keputusan Keputusan adalah suatu reaksi terhadap beberapa solusi alternative

BAB II LANDASAN TEORI 2.1. Sistem Pendukung keputusan Pengertian keputusan Keputusan adalah suatu reaksi terhadap beberapa solusi alternative BAB II LANDASAN TEORI 2.1. Sistem Pendukung keputusan 2.1.1. Pengertian keputusan Keputusan adalah suatu reaksi terhadap beberapa solusi alternative yang dilakukan secara sadar dengan menganalisa kemungkinan-kemungkinan

Lebih terperinci

Online News Classification Using Multinomial Naive Bayes

Online News Classification Using Multinomial Naive Bayes Online News Classification Using Multinomial Naive Bayes Amelia Rahman Informatika, Fakultas MIPA Universitas Sebelas Maret Jalan Ir. Sutami 36A Surakarta amelia.rahman@student.uns.ac.id Wiranto Informatika,

Lebih terperinci

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY INVERSED DOCUMENT FREQUENCY DAN VECTOR SPACE MODEL MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY

Lebih terperinci

Text Pre-Processing. M. Ali Fauzi

Text Pre-Processing. M. Ali Fauzi Text Pre-Processing M. Ali Fauzi Latar Belakang Latar Belakang Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Lebih terperinci

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk

BAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.

Lebih terperinci

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL

TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI 7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.

Lebih terperinci

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS)

CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF- ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA SELF ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS PERTANIAN UNS) Vera Suryaningsih Informatika, Fakultas MIPA, Universitas Sebelas Maret Jl.

Lebih terperinci

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin - 5108100132 Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus

Lebih terperinci

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR

DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR DETEKSI PLAGIARISME DENGAN ALGORITMA RABIN KARP DAN ALGORITMA KLASTERISASI SUFFIX TREE PADA TEKS DOKUMEN TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas

Lebih terperinci

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

UKDW BAB 1 PENDAHULUAN. 1.1 Latar Belakang Masalah BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan teknologi komputer khususnya di jaringan Internet telah berkembang dengan sangat cepat. Semua orang dapat saling bertukar dan mendapatkan informasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR Achmad Thoriq B, Nelly Indriani W Abstract News aggregator is one type of aggregator system (collector) which collects

Lebih terperinci

Jurnal Informatika dan Komputer PENS

Jurnal Informatika dan Komputer PENS Jurnal Informatika dan Komputer PENS www.jurnalpa.eepis-its.edu Teknik Komputer Vol.2, No.2, 2015 Politeknik Elektronika Negeri Surabaya Aplikasi Pendeteksi Kemiripan Laporan Menggunakan Text Mining dan

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode

BAB III K-MEANS CLUSTERING. Analisis klaster merupakan salah satu teknik multivariat metode BAB III K-MEANS CLUSTERING 3.1 Analisis Klaster Analisis klaster merupakan salah satu teknik multivariat metode interdependensi (saling ketergantungan). Oleh karena itu, dalam analisis klaster tidak ada

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci