IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

Ukuran: px
Mulai penontonan dengan halaman:

Download "IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS"

Transkripsi

1 IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya, 60111, Indonesia 1 andreas@cs.its.ac.id ABSTRAK Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang berkembang pesat dan melimpah. Salah satu metode kategorisasi teks adalah algoritma K-Nearest Neighbour (KNN). Algoritma KNN ini dikenal cukup sederhana dan cukup efektif, namun kurang efisien. Pada makalah ini, diimplementasikan algoritma KNN yang menggunakan one pass clustering (one pass KNN) untuk mengatasi kekurangan tersebut. Algoritma one pass clustering di sini digunakan untuk membangun model klasifikasi. Selanjutnya, model klasifikasi yang didapat digunakan untuk melakukan kategorisasi dengan algoritma KNN. Dengan menerapkan algoritma one pass KNN tersebut dan mengujinya pada dataset Reuters-21578, algoritma one pass KNN mencapai nilai F 1 88%, sedangkan algoritma KNN konvensional hanya mendapatkan hasil F 1 85%. Selain itu, waktu komputasi one pass KNN 80% lebih efisien sekitar jika dibandingkan dengan waktu komputasi KNN konvensional. Sehingga dapat disimpulkan bahwa one pass KNN lebih akurat dan lebih efisien dibandingkan algoritma KNN konvensional. Kata kunci: kategorisasi teks, one pass clustering, k-nearest neighbour 1. Latar Belakang Kategorisasi teks (atau klasifikasi teks) adalah suatu proses yang mengelompokkan suatu teks ke dalam suatu kategori tertentu. Secara teknis, tugas kategorisasi teks adalah memetakan fungsi tujuan: D x C {T, F}, yang mana D adalah domain dokumen dan C adalah himpunan kategori yang telah ditentukan [1]. Nilai T diberikan apabila suatu dokumen d i termasuk ke dalam kategori c j. Jika sebaliknya, diberikan nilai F. Kategorisasi teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah [2]. Kategorisasi teks membuat pengelolaan informasi tersebut menjadi efektif dan efisien. Dengan menggunakan kategorisasi teks, dapat dilakukan penyaringan terhadap spam, melakukan penggalian opini (opinion mining), dan analisis sentimen. Algoritma kategorisasi teks saat ini telah banyak berkembang, antara lain: Support Vector Machines (SVM), Naive Bayessian (NB), pohon keputusan, K-Nearest Neighbour (KNN), dan lainnya. Dari berbagai macam algoritma yang telah dikembangkan tersebut, KNN dan SVM telah diakui lebih handal dibandingkan dengan algoritma yang lainnya [3]. Algoritma KNN sendiri adalah suatu algoritma yang sederhana, namun cukup efektif dalam melakukan kategorisasi teks [4]. Selain itu, proses klasifikasi dari KNN mudah untuk direpresentasikan dibandingkan dengan algoritma klasifikasi lain, seperti: SVM dan Artificial Neural Networks (ANN). Namun dalam keunggulan tersebut, KNN mempunyai beberapa kekurangan. Permasalahan mendasar adalah algoritma KNN membutuhkan alokasi memori yang besar karena tidak membangun model klasifikasi dalam prosesnya. Dengan tidak adanya model klasifikasi tersebut, efisiensi waktu komputasi menjadi buruk karena tiap satu data masukkan akan dibandingkan dengan seluruh data latih. Dengan adanya kekurangan tersebut, maka KNN bisa menjadi tidak sesuai diterapkan dengan kondisi data yang sangat melimpah dan terus berubah sekarang ini. Untuk menyelesaikan masalah tersebut, [2] mengajukan suatu metode untuk mengatasi hal tersebut. Metode tersebut bekerja dengan mengelompokkan terlebih dahulu data teks yang akan dikategorisasi dengan KNN. Pengelompokan data teks tersebut dapat dilakukan dengan teknik clustering. Pengelompokan ini merupakan proses pembangunan model klasifikasi. Berdasarkan metode yang diajukan oleh [2], dalam makalah ini akan diimplementasikan sistem kategorisasi teks dengan algoritma KNN yang berdasarkan algoritma one pass clustering dalam membangun model klasifikasi (one pass KNN). 2. Metode Bab ini berisi metode-metode yang akan digunakan dalam mengimplementasikan one pass KNN. Metode yang digunakan adalah preprocessing, 1

2 pembangunan model klasifikasi dengan one pass clustering, dan kategorisasi teks dengan KNN Preprocessing Tahap preprocessing diawali dengan melakukan ekstraksi terhadap dataset yang berupa berkas XML. Berkas XML akan diekstrak berdasarkan tag-tag yang ada pada berkas tersebut. Tiap satu dokumen berita pada berkas dibatasi oleh tag REUTERS. Pada tag tersebut terdapat atribut LEWISSPLIT yang menyimpan informasi tentang tipe dokumen, apakah termasuk ke dalam data latih atau data uji. Dokumen termasuk ke dalam data latih apabila nilai dari atribut LEWISSPLIT adalah TRAIN. Sedangkan dokumen termasuk ke dalam data uji apabila nilainya adalah TEST. Kemudian, diambil juga isi dari tag DATE yang merepresentasikan tanggal dimuatnya berita. Tag TOPICS berisi daftar topik atau kategori yang menggambarkan isi dokumen. Tiap topik pada tag tersebut dipisahkan oleh tag D. Gambar 2.1 Diagram alir tahap preprocessing. Isi dari dokumen diambil dari tag TEXT yang di dalamnya juga terdapat tag TITLE yang mengandung informasi tentang judul dari berita, sedangkan isi dari berita itu sendiri terdapat pada tag BODY. Pada beberapa dokumen, tag TEXT dapat memiliki atribut TYPE dengan nilai UNPROC. Pada kasus tersebut, dokumen tidak memiliki judul, hanya memiliki isi saja. Setelah berkas XML dapat diekstrak informasi yang diinginkan menjadi sekumpulan dokumen, dokumen tersebut akan disimpan ke dalam database. Dokumen-dokumen yang telah disimpan tersebut dapat disebut sebagai corpus. Setelah semua dokumen tersimpan ke dalam database, dilakukan preprocessing terhadap tiap dokumen tersebut. Tahap ini diawali dengan melakukan case folding terhadap teks dalam dokumen. Case folding ini akan mengubah semua huruf dalam teks menjadi huruf kecil [5]. Setelah itu, dokumen akan dilakukan proses filtering, yaitu dengan membuang semua karakter yang tidak bersifat signifikan, seperti: tanda baca dan angka [5]. Dokumen kemudian akan diekstrak untuk mendapatkan term-term dari tiap dokumen. Ekstraksi term tersebut dilakukan dengan memisahkan teks dalam kalimat berdasarkan tanda white space. Termterm yang sudah didapat tersebut akan diseleksi berdasarkan daftar stop word. Selanjutnya, term-term yang terpilih akan melalui proses stemming menggunakan algoritma Porter. Secara keseluruhan, tahap preprocessing dapat dilihat pada Gambar 2.1. Kumpulan term-term yang sudah diekstrak akan direpresentasikan ke dalam bentuk vektor yaitu Vector Space Model (VSM) [6]. Bobot yang akan digunakan pada VSM tersebut adalah bobot tf-idf. Rumus tf-idf dinyatakan dalam Persamaan 2.1 berikut. w t,d = (1 + log tf t,d ) log 10 N df t (2.1) Dalam Persamaan 2.1, t merupakan term atau kata, dan d merupakan dokumen. Notasi N adalah total semua dokumen yang ada. Selanjutnya, bobot tfidf tersebut akan dinormalisasi dengan nilai cosine. Nilai cosine adalah jumlah dari tiap bobot dari term yang ada pada dokumen yang sama. Hasil penjumlahan tersebut kemudian diakarkuadratkan, kemudian nilainya membagi Pembangunan Model dengan Clustering Data yang sudah direpresentasikan ke dalam bentuk VSM akan dijadikan acuan untuk pembangunan model klasifikasi, terutama data latih. Pembangunan model klasifikasi ini menggunakan algoritma one pass clustering [2]. Algoritma clustering ini memiliki keunggulan dari segi waktu daripada algoritma clustering konvensional, seperti k- means, karena algoritma hanya membaca data satu kali selama proses clustering. Tahap-tahap proses one pass clustering dijelaskan sebagai berikut yang juga tersaji dalam diagram alir dalam Gambar 2.2: 1. Buat suatu himpunan kosong untuk menampung cluster, m Baca teks p dari corpus data latih. Bentuk cluster baru dengan anggota p, dan label dari cluster adalah label dari dari teks p. 3. Jika tidak ada teks yang bisa dibaca di corpus data latih, maka menuju ke nomor 6. Sebaliknya, baca teks baru p dari corpus, hitung kemiripan teks p dengan semua cluster C di m 0 menggunakan fungsi cosine. Ambil cluster yang terdekat dengan p atau yang nilai kemiripannya paling besar, sim(p,c*) sim(p,c). 4. Jika nilai sim(p,c*) < r atau label teks p berbeda dengan label cluster C*, maka menuju ke 2. Variabel r adalah variabel threshold yang akan dijelaskan kemudian. 5. Gabungkan teks p ke dalam cluster C* dan perbarui bobot dari tiap kata di C*. Kemudian, menuju ke Hentikan proses clustering. Ambil hasil clustering, m 0 = {C 1, C 2, C 3,, C 4 }, tiap cluster dalam m 0 berisi kumpulan kata berbobot dan label cluster. Himpunan m 0 adalah model klasifikasi. Dalam proses clustering di atas, terdapat proses pembaruan bobot. Strategi untuk pembaruan bobot 2

3 yang tercantum pada langkah 5 adalah pada Persamaan 2.2. w j+1 Ci (t) = w c i j (t) ci +w(t) p c i +1, (2.2) di mana w i+1 Ci (t) adalah bobot baru dari kata t dari cluster c i. w i ci (t) adalah bobot lama dari kata t dari cluster c i. w(t) p adalah bobot kata t pada teks p. Dan, c i adalah jumlah teks pada cluster c i. Selain pembaruan bobot, dalam proses clustering tersebut juga terdapat nilai r. Nilai r adalah nilai threshold yang dapat mempengaruhi efisiensi waktu dan kualitas dari clustering. Nilai r tersebut dapat di- 3. Hitung nilai rata-rata kemiripan yang didapat dari tahap 2 (ex). 4. Tentukan nilai r dari persamaan ε x ex, di mana ε 1. Model klasifikasi tersebut dapat diperbarui (update) apabila terdapat data pelatihan baru yang ingin ditambahkan. Algoritma one pass clustering memungkinkan model klasifikasi dapat diperbarui dengan mudah karena sifatnya yang incremental. Proses pembaruan model dimulai dari tahap ke (3) dari algoritma one pass clustering Kategorisasi Teks Model klasifikasi yang telah didapat dari proses clustering sebelumnya akan digunakan sebagai acuan untuk melakukan kategorisasi teks. Proses kategorisasi teks ini akan menggunakan algoritma K- Nearest Neighbour (KNN). Secara sederhana, algoritma ini bekerja dengan membandingkan jarak data masukan dengan sejumlah k data pelatihan yang paling dekat [4]. Secara matematis, algoritma KNN berdasarkan one pass clustering dijabarkan dalam Persamaan 2.3 [2]. f(x) = argmaxclusterscore x, c j j = argmax( C i KNN sim(x, C i )y(c i, c j )), (2.3) j di mana fungsi f(x) adalah fungsi yang mengembalikan label yang diberikan ke teks x. ClusterScore x, c j adalah skor kandidat perbandingan dokumen x dengan kumpulan kategori c j. Fungsi sim(x, C i ) mengembalikan nilai kemiripan (similarity) antara teks x dengan kategori C i. Dan, y(c i, c j ) akan bernilai 1 apabila cluster C i memiliki label c j, dan bernilai 0 apabila sebaliknya. Secara sederhana, proses kategorisasi ini akan menghitung nilai kemiripan antara teks masukan dengan cluster dari model klasifikasi. Kemudian, akan dipilih k cluster yang mempunyai nilai kemiripan paling besar. Menghitung skor dari kategori tiap-tiap cluster terpilih. Label dari kategori dengan skor terbesar akan menjadi label dari data teks masukan. 3. Skenario Uji Coba Gambar 2.2 Diagram alir tahap pembangunan model. peroleh dengan menggunakan teknik sampling sebagai berikut. 1. Pilih secara acak N 0 pasang teks dari corpus. 2. Hitung kemiripan (similarity) tiap pasang teks. Uji coba dilakukan pada lingkungan perangkat keras sebagai berikut: 1. Processor: Intel(R) Core(TM)2 Duo 2,10 GHz. 2. Memory: 2,99 GB. Sedangkan, lingkungan perangkat lunak yang dipakai adalah: 1. Sistem operasi: Windows XP SP3. 2. Tools: - XAMPP

4 - Java Runtime Enviroment Data yang digunakan pada uji coba ini adalah dataset Reuters Dari 135 kategori yang ada, hanya akan diambil 7 kategori saja, yaitu: ACQ, corn, crude, earn, interest, ship, dan trade. Tiap satu dokumen bisa saja memiliki dua kategori dan dianggap sebagai satu entitas yang berbeda tiap kategorinya. Dataset tersebut dibagi menjadi data latih dan data uji berdasarkan tag LEWISSPLIT pada berkas XML. Data latih adalah data yang digunakan sebagai acuan untuk membangun model klasifikasi, sedangkan data uji adalah data yang digunakan untuk menguji performa dari model klasifikasi tersebut. Jumlah data latih yang digunakan sebanyak 6010 dan jumlah data uji adalah sebanyak Rincian jumlah untuk masing-masing kategori dapat dilihat pada Tabel 3.1. Tabel 3.1 Tabel Pembagian Data Latih dan Data Uji No. Kategori Data Latih Data Uji 1 ACQ Corn Crude Earn Interest Ship Trade Total Proses evaluasi perlu dilakukan untuk melihat sejauh mana kinerja dari model klasifikasi yang telah dibangun. Evaluasi dilakukan dengan menggunakan 2388 data uji. Proses evaluasi ini akan menggunakan metode F 1 dan Macro-F 1. Metode evaluasi F 1 merupakan penerapan gabungan dari recall (r) dan precision (p) yang dinyatakan ke dalam Persamaan 3.1. F 1 merupakan nilai peforma untuk satu kategori. F 1 = 2 r p r + p (3.1) Sedangkan Macro-F 1 adalah nilai rata-rata dari nilai F 1 individu masing-masing kategori. Skenario uji coba pada makalah ini akan dilakukan sebanyak dua skenario. Skenario I adalah uji coba yang dilakukan untuk mencari parameter epsilon pada KNN berdasarkan one pass clustering (one pass KNN) yang menghasilkan performa paling bagus. Sedangkan skenario II adalah uji coba dilakukan melihat dan membandingkan performa algoritma one pass KNN dengan algoritma KNN konvensional. Skenario I pada uji coba ini dilakukan untuk mencari nilai epsilon pada algoritma one pass KNN yang menghasilkan performa terbaik. Hasil sebelumnya menyatakan bahwa nilai epsilon terbaik berada pada rentang nilai 3-10 [2]. Pada uji coba ini, dibangun model klasifikasi dengan algoritma one pass KNN dengan nilai epsilon tersebut. Nilai ratarata kemiripan antardokumen (ex) yang digunakan pada perhitungan nilai threshold diatur tetap yaitu 0, yang didapat dari uji coba dengan salah satu nilai epsilon. Hal tersebut dilakukan karena nilai ex bersifat acak. Pada proses klasifikasi, digunakan nilai k yang nilainya adalah 1, 5, 10, 20, 30, 45, 50, 60, 70, dan 80. Data latih yang digunakan adalah 6010 dokumen Reuters Sedangkan data uji yang digunakan adalah 2388 dokumen Reuters Performa diukur dengan metode F 1 dan Macro-F 1 di mana performa berbanding lurus dengan nilainya. Skenario II ini dilakukan untuk menguji performa one pass KNN dengan KNN konvensional. Uji coba dilakukan dengan menggunakan model klasifikasi yang dibangun dengan 6010 data latih. Untuk algoritma one pass KNN dalam pembangunan model klasifikasi, digunakan nilai epsilon = 4 merujuk pada uji coba skenario I yang menghasilkan performa paling bagus dan jumlah pasang dokumen adalah 8000 yang sama seperti pada [2]. Sedangkan pada algoritma KNN, tidak diperlukan masukkan parameter apapun karena algoritma ini merupakan algoritma lazy learner yang tidak membangun model klasifikasi. Nilai k yang dipakai untuk melakukan klasifikasi adalah 1, 5, 10, 20, 30, 45, 50, 60, 70, dan 80. Performa akan dihitung berdasarkan output data uji yang berjumlah sebanyak Performa akan diukur dengan metode F 1 dan Macro-F 1, serta dengan waktu komputasi. 4. Hasil Uji Coba Bagian ini akan menjelaskan hasil uji coba yang telah dilakukan pada skenario I. Data yang ditampilkan adalah data dari performa empat nilai k terbaik dengan delapan macam nilai epsilon. Nilai k tersebut antara lain: 10, 20, 30, 50. Hasil uji coba disajikan dalam tabel di mana satu tabel yang berisi nilai Macro-F 1 untuk delapan nilai epsilon. Tabel 4.1 menunjukkan hasil uji coba dengan nilai k = 10. Pada hasil uji coba tersebut, didapat nilai Macro-F 1 di atas 0,85 secara keseluruhan. Nilai Macro-F 1 terendah pada nilai epsilon sebesar 7 yaitu 0,8569. Sedangkan Nilai Macro-F 1 tertinggi didapat pada nilai epsilon 8 dengan nilai 0,8658. Hasil tersebut menunjukkan kecenderungan nilai Macro-F 1 yang makin kecil walaupun sempat mengalami kenaikan yang cukup signifikan pada epsilon 8. Hasil uji coba dengan nilai k = 20 dijabarkan pada Tabel 4.1. Hasil secara keseluruhan berisi nilai Macro-F 1 hampir di atas 0,86. Nilai Macro-F 1 maksimum adalah 0,87803 pada epsilon = 4. Nilai Macro-F 1 minimum yang didapat pada epsilon 6 adalah 0,8595. Pada uji coba ini, didapat kecenderungan semakin besar nilai epsilon, semakin turun performanya. Titik penurunan berada pada epsilon 5. 4

5 Tabel 4.1 Performa pada Empat Nilai k. epsilon Macro-F 1 k=10 k=20 k=30 k=50 3 0,8632 0,8764 0,8739 0, ,8628 0,8780 0,8802 0, ,8639 0,8743 0,8692 0, ,8621 0,8595 0,8596 0, ,8569 0,8666 0,8641 0, ,8658 0,8640 0,8598 0, ,8650 0,8603 0,8629 0, ,8580 0,8602 0,8610 0,8626 Hasil uji coba dengan nilai k = 30 dalam tabel 4.1 menghasilkan performa Macro F 1 yang cukup baik karena secara keseluruhan nilainya hampir di atas 0,85. Nilai terkecil berada saat epsilon 6 dengan nilai Macro-F 1 0,8596 dan nilai terbesar adalah 0,8802 saat epsilon = 4. Pada uji coba ini, kecenderungan nilai Macro-F 1 dengan epsilon adalah menurun. Hasil uji coba pada nilai k = 50 pada tabel 4.1 menunjukkan kecenderungan nilai Macro-F 1 meningkat seiring dengan meningkatnya nilai epsilon. Namun, kecenderungan tersebut mengalami pengecualian pada nilai epsilon = 7 di mana performa mengalami penurunan secara drastis. Hasil uji coba ini menghasilkan rentang nilai antara 0,8550 pada epsilon = 7 hingga 0,8633 pada epsilon = 6. Tabel 4.2 menunjukkan perbandingan jumlah cluster dengan berbagai nilai epsilon. Jumlah cluster yang terbentuk berbanding lurus dengan nilai epsilon yang diberikan. Jumlah cluster bertambah dengan sekitar 200 cluster tiap peningkatan nilai epsilon. Tabel 4.2 Perbandingan Performa berdasarkan Nilai epsilon. epsilon Jumlah Cluster Gambar 4.1 menunjukkan grafik perbandingan nilai epsilon dengan performa dengan empat nilai k. Kecenderungan yang didapat secara umum adalah semakin besar nilai epsilon, semakin kecil nilai performanya yang terlihat pada grafik. Macro-F 1 0,89 0,88 0,87 0,86 0,85 0, epsilon Gambar 4.1 Grafik performa Macro-F 1 terhadap nilai epsilon pada Skenario I. Dari tabel 4.3, ditunjukkan performa hasil klasifikasi dari algoritma one pass KNN dan KNN konvensional yang dinyatakan dengan nilai Macro-F 1 dan waktu komputasi. Nilai Macro-F 1 ditampilkan dalam sebuah grafik pada Gambar 4.2. Dari grafik tersebut, terlihat bahwa performa algoritma one pass KNN dengan epsilon 4 hampir selalu lebih baik daripada algoritma KNN konvensional pada berbagai nilai k yang ditunjukkan garis grafik one pass KNN hampir selalu di atas dari garis grafik KNN, kecuali pada nilai k = 1. Kedua algoritma sama-sama mengalami kecenderungan penurunan performa pada saat nilai k = 45. Algoritma one pass KNN mencapai hasil performa terbaiknya pada nilai k = 30 dengan nilai Macro-F 1 adalah 0,8802. Sedangkan algoritma KNN mencapai hasil performa terbaik pada nilai k = 50 dengan nilai Macro-F 1 adalah 0,8509. Tabel 4.3 Hasil Uji Coba dari One Pass KNN (epsilon=4) dan KNN Tradisional. Waktu Klasifikasi Macro-F1 k One Pass One Pass KNN KNN KNN KNN ,7409 0, ,8406 0, ,8628 0, ,8780 0, ,8802 0, ,8686 0, ,8631 0, ,8602 0, ,8580 0, ,8452 0,8369 k=10 k=20 k=30 k=50 5

6 Macro-F1 0,9 0,85 0,8 0,75 0,7 0, Nilai k One Pass KNN KNN Gambar 4.2 Grafik performa Macro-F 1 terhadap nilai k. Pada Tabel 4.3, juga ditampilkan hasil waktu komputasi dari masing-masing kategori. Waktu komputasi untuk algoritma one pass KNN berkisar pada 197 detik. Sedangkan pada algoritma KNN, waktu komputasinya berkisar 1529 detik. Sehingga, terlihat bahwa algoritma one pass KNN memiliki waktu komputasi yang jauh lebih baik daripada algoritma KNN konvensional pada data latih yang sama. Namun, algoritma one pass KNN memiliki waktu untuk melakukan pembangunan model klasifikasi yang bernilai sebesar 905 detik. Hasil performa terbaik tiap kategori dapat dilihat pada Tabel 4.4. Dari tabel tersebut, terlihat algoritma one pass KNN memiliki performa lebih baik pada semua kategori, kecuali kategori corn, crude, dan interest. Kedua algoritma sama-sama mendapatkan nilai performa kurang baik pada kategori crude dan ship yang hanya ada pada kisaran 0,7. Tabel 4.4 Perbandingan Detail Kategori Skenario II. One Pass KNN (k=30) KNN (K=50) Kategori Jumlah Cluster Nilai F 1 Nilai F 1 ACQ 529 0,9580 0,8365 Corn 38 0,9259 0,9310 Crude 122 0,7625 0,7933 Earn 491 0,9798 0,9135 Interest 56 0,9008 0,9098 Ship 89 0,7477 0,7000 Trade 96 0,8863 0, ,8802 0, Pembahasan Hasil uji coba skenario I terhadap algoritma one pass KNN dengan berbagai nilai parameter epsilon menunjukkan hasil performa yang cukup baik. Hasil performa terbaik didapat pada nilai epsilon = 4, yaitu 0, Dari berbagai nilai epsilon yang diujicoba, didapat kecenderungan jumlah cluster yang makin bertambah seiring dengan nilai epsilon yang diberikan. Hal tersebut wajar terjadi karena semakin besar nilai epsilon, maka semakin besar pula nilai threshold yang didapat. Semakin besar nilai threshold, akan semakin kecil pula batasan hyper sphere pada suatu cluster yang menyebabkan semakin kecil peluang suatu dokumen untuk masuk ke dalam cluster tersebut. Selain itu, terdapat juga kecenderungan semakin bertambahnya nilai epsilon semakin menurun performanya. Dengan makin bertambahnya nilai epsilon, maka jumlah jangkauan cluster yang terbentuk makin kecil. Dengan kecilnya jangkau cluster, maka peluang data noise untuk membentuk suatu cluster sendiri makin besar. Sehingga, hasil klasifikasi dapat berpengaruh tidak baik. Namun, dengan semakin besarnya jangkauan cluster, maka pengaruh data tereduksi karena data tersebut akan dilebur menjadi satu centroid. Hasil uji coba skenario II terhadap algoritma one pass KNN dibandingkan dengan algoritma KNN menunjukkan bahwa algoritma one pass KNN memiliki performa lebih baik daripada algoritma KNN konvensional. Algoritma one pass KNN memiliki perbaikan performa rata-rata sebesar 2,63 % dibandingkan dengan algoritma KNN. Algoritma KNN lebih baik daripada algoritma one pass KNN hanya pada k = 1. Nilai tersebut dapat diabaikan karena hasil tersebut dapat saja terpengaruh oleh noise yang merupakan kekurangan algoritma KNN konvensional [4]. Performa one pass KNN lebih baik karena nilai bobot tiap term dari masing-masing dokumen dengan kategori yang sama telah tergeneralisasi menjadi satu cluster. Sehingga, dokumen yang memiliki karakteristik data berbeda dari normal akan berkurang pengaruhnya. Hasil performa tiap kategori yang dapat dilihat Tabel 4.4 dan menunjukkan hasil yang cukup baik di hampir semua kategori dengan nilai F 1 di atas Namun, performa mengalami penurunan pada kategori crude dan ship yang hanya mencapai kisaran nilai 0,75. Hal tersebut terjadi karena karakteristik dataset yang memungkinkan satu dokumen mempunyai banyak kategori. Kategori crude dan ship 6

7 merupakan kategori yang paling banyak berpotongan dalam dataset ini. Dalam uji coba skenario II, terdapat kecenderungan nilai performa makin menurun seiring dengan bertambahnya nilai k. Performa kedua algoritma sama-sama cenderung menurun pada saat k = 45. Hal itu dapat disebabkan dari karakteristik data latih yang diberikan. Jumlah dokumen untuk masingmasing kategori sangat tidak berimbang. Kategori corn hanya memiliki data latih sebanyak 118, namun kategori earn memiliki data latih sebanyak Dengan bertambahnya jumlah dokumen atau cluster yang dipilih seiring dengan nilai k, menyebabkan dominasi kategori yang seharusnya terpilih makin menurun karena jumlahnya kalah dari kategori lain. Total waktu one pass KNN selisih 80% dari total waktu KNN. Algoritma one pass KNN memiliki waktu yang jauh lebih baik dalam proses klasifikasi. Namun, algoritma one pass memerlukan waktu untuk melakukan pembangunan model. Hal tersebut tidak menjadi masalah karena proses tersebut dapat dilakukan sekali. Lebih efisiensinya waktu dari algoritma one pass KNN disebabkan oleh komputasi yang dilakukan dengan membandingkan data masukkan dengan data latih tereduksi karena sistem hanya perlu membandingkan dengan centroid dari cluster-cluster yang telah terbentuk. 6. Kesimpulan Dari implementasi dan hasil uji coba terhadap algoritma one pass KNN untuk kategorisasi teks, dapat diambil kesimpulan: 1. Algoritma one pass KNN dapat diimplementasikan dengan melakukan preprocessing untuk mengubah dokumen menjadi vektor. Kemudian, membangun model klasifikasi berupa cluster dengan algoritma one pass clustering dan dapat memperbaruinya. Model klasifikasi digunakan untuk mengklasifikasi dengan algoritma KNN. Evaluasi dilakukan dengan metode F 1 dan Macro-F Semakin besar nilai threshold yang dipengaruhi oleh nilai epsilon, maka performa cenderung makin menurun. Hal ini juga berlaku untuk perbandingan performa dengan nilai k. Nilai threshold terbaik adalah saat epsilon bernilai Performa one pass KNN lebih baik daripada performa KNN konvensional di mana performa one pass KNN bernilai 88% pada pada epsilon sebesar 4 dan nilai k sebesar 30 dibanding dengan performa KNN yang bernilai hanya 85% saat nilai k = Efisiensi waktu komputasi algoritma one pass KNN 70% lebih baik daripada waktu komputasi algoritma KNN konvensional. Namun, algoritma one pass KNN memerlukan waktu untuk melakukan pembangunan model. Waktu pembangunan model dapat diabaikan dalam perbandingan ini karena hal tersebut dilakukan hanya sekali saja. 7. Daftar Pustaka [1] F. Sebastiani, Machine learning in automated text categorization, ACM Computing Surveys, vol. 34, no. 1, pp. 1-47, [2] S. Jiang, G. Pang, M. Wu and L. Kuang, "An improved K-nearest-neighbor algorithm for text categorization," Expert Systems with Applications, vol. 39, pp , [3] Y. Yang dan X. Liu, A Re-examination of Text Categorization Methods, dalam Proceedings 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), Berkeley, [4] P.-N. Tan, M. Steinbach dan V. Kumar, Introduction to Data Mining, 1st penyunt., Boston: Pearson Addison Wesley, [5] C. D. Manning, P. Raghavan dan H. Schütze, An Introduction to Information Retrieval, Cambridge: Cambridge University Press, [6] G. Salton, A. Wong dan C. S. Yang, A Vector Space Model for Automatic Indexing, Communications of the ACM, vol. 18, no. 11, pp ,

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks

Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin - 5108100132 Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)

Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM) Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR

KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means

Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

OPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS

OPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS TELEMATIKA, Vol. 13, No. 02, JULI, 2016, Pp. 59 68 ISSN 1829-667X OPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS Oman Somantri (1), Slamet Wiyono (2), Dairoh

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua

BAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi Penelitian adalah sekumpulan peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu. Metodologi juga merupakan analisis teoritis mengenai

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir

IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah

Lebih terperinci

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI

PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI 18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No., Oktober 28, hlm. 3939-3947 http://j-ptiik.ub.ac.id Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR

WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR Eko Prasetyo 1), Rifki Fahrial Zainal 2), Harunur Rosyid 3) 1), 2) Teknik Informatika Universitas Bhayangkara Surabaya Jl. A. Yani 114, Surabaya, 60231 3) Teknik

Lebih terperinci

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak

PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine

Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,

Lebih terperinci

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX

INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id

Lebih terperinci

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor

Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 486-492 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN Eko Prasetyo 1) 1 Program Studi Teknik Informatika, Fakultas Teknik, Universitas Bhayangkara Surabaya 2 Jalan A. Yani 11, Surabaya, 60231

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs

Lebih terperinci

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga

BAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga 1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

beberapa tag-tag lain yang lebih spesifik di dalamnya.

beberapa tag-tag lain yang lebih spesifik di dalamnya. metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75

JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75 JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana

Lebih terperinci

BAB IV EKSPERIMEN. 4.1 Tujuan

BAB IV EKSPERIMEN. 4.1 Tujuan BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor

Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak

Lebih terperinci

ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE

ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE Trisna Ari Roshinta 1, Faisal Rahutomo 2, Deddy Kusbianto 3 1,2,3 Teknik Informatika, Teknologi Informasi, Politeknik Negeri

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN

Pembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN 3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar belakang

BAB I PENDAHULUAN. 1.1 Latar belakang BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER

SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER Anindya Apriliyanti P. Departemen Statistika FMIPA Universitas Padjadjaran a.apriliyanti.p@gmail.com

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang

Lebih terperinci

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak

PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1 Wahyu Catur Wibowo 2 1 Program Studi Sistem Informasi, Universitas Jember 2 Fakultas Ilmu Komputer, Universitas Indonesia,

Lebih terperinci

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)

PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang

BAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang 58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

BAB II LANDASDAN TEORI

BAB II LANDASDAN TEORI DAFTAR ISI HALAMAN SAMPUL... HALAMAN JUDUL... i LEMBAR PERSETUJUAN... ii LEMBAR PENGESAHAN... iii MOTTO DAN PERSEMBAHAN... iv LEMBAR KEASLIAN... v HALAMAN PERNYATAAN PUBLIKASI... vi ABSTAKSI... vii ABSTRACT...

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

Temu-Kembali Informasi 2017

Temu-Kembali Informasi 2017 Temu-Kembali Informasi 2017 Proyek Pemrograman Terpadu (Tiga Tahapan) Husni Husni@Trunojoyo.ac.id Proyek Pemrograman #1 Husni Proyek Pemrograman #1: Indexing Sasaran (goal): membangun suatu inverted index

Lebih terperinci