IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS
|
|
- Johan Tedjo
- 7 tahun lalu
- Tontonan:
Transkripsi
1 IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember (ITS) Surabaya, 60111, Indonesia 1 andreas@cs.its.ac.id ABSTRAK Kategorisasi teks merupakan salah satu solusi untuk mengelola informasi yang berkembang pesat dan melimpah. Salah satu metode kategorisasi teks adalah algoritma K-Nearest Neighbour (KNN). Algoritma KNN ini dikenal cukup sederhana dan cukup efektif, namun kurang efisien. Pada makalah ini, diimplementasikan algoritma KNN yang menggunakan one pass clustering (one pass KNN) untuk mengatasi kekurangan tersebut. Algoritma one pass clustering di sini digunakan untuk membangun model klasifikasi. Selanjutnya, model klasifikasi yang didapat digunakan untuk melakukan kategorisasi dengan algoritma KNN. Dengan menerapkan algoritma one pass KNN tersebut dan mengujinya pada dataset Reuters-21578, algoritma one pass KNN mencapai nilai F 1 88%, sedangkan algoritma KNN konvensional hanya mendapatkan hasil F 1 85%. Selain itu, waktu komputasi one pass KNN 80% lebih efisien sekitar jika dibandingkan dengan waktu komputasi KNN konvensional. Sehingga dapat disimpulkan bahwa one pass KNN lebih akurat dan lebih efisien dibandingkan algoritma KNN konvensional. Kata kunci: kategorisasi teks, one pass clustering, k-nearest neighbour 1. Latar Belakang Kategorisasi teks (atau klasifikasi teks) adalah suatu proses yang mengelompokkan suatu teks ke dalam suatu kategori tertentu. Secara teknis, tugas kategorisasi teks adalah memetakan fungsi tujuan: D x C {T, F}, yang mana D adalah domain dokumen dan C adalah himpunan kategori yang telah ditentukan [1]. Nilai T diberikan apabila suatu dokumen d i termasuk ke dalam kategori c j. Jika sebaliknya, diberikan nilai F. Kategorisasi teks merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah [2]. Kategorisasi teks membuat pengelolaan informasi tersebut menjadi efektif dan efisien. Dengan menggunakan kategorisasi teks, dapat dilakukan penyaringan terhadap spam, melakukan penggalian opini (opinion mining), dan analisis sentimen. Algoritma kategorisasi teks saat ini telah banyak berkembang, antara lain: Support Vector Machines (SVM), Naive Bayessian (NB), pohon keputusan, K-Nearest Neighbour (KNN), dan lainnya. Dari berbagai macam algoritma yang telah dikembangkan tersebut, KNN dan SVM telah diakui lebih handal dibandingkan dengan algoritma yang lainnya [3]. Algoritma KNN sendiri adalah suatu algoritma yang sederhana, namun cukup efektif dalam melakukan kategorisasi teks [4]. Selain itu, proses klasifikasi dari KNN mudah untuk direpresentasikan dibandingkan dengan algoritma klasifikasi lain, seperti: SVM dan Artificial Neural Networks (ANN). Namun dalam keunggulan tersebut, KNN mempunyai beberapa kekurangan. Permasalahan mendasar adalah algoritma KNN membutuhkan alokasi memori yang besar karena tidak membangun model klasifikasi dalam prosesnya. Dengan tidak adanya model klasifikasi tersebut, efisiensi waktu komputasi menjadi buruk karena tiap satu data masukkan akan dibandingkan dengan seluruh data latih. Dengan adanya kekurangan tersebut, maka KNN bisa menjadi tidak sesuai diterapkan dengan kondisi data yang sangat melimpah dan terus berubah sekarang ini. Untuk menyelesaikan masalah tersebut, [2] mengajukan suatu metode untuk mengatasi hal tersebut. Metode tersebut bekerja dengan mengelompokkan terlebih dahulu data teks yang akan dikategorisasi dengan KNN. Pengelompokan data teks tersebut dapat dilakukan dengan teknik clustering. Pengelompokan ini merupakan proses pembangunan model klasifikasi. Berdasarkan metode yang diajukan oleh [2], dalam makalah ini akan diimplementasikan sistem kategorisasi teks dengan algoritma KNN yang berdasarkan algoritma one pass clustering dalam membangun model klasifikasi (one pass KNN). 2. Metode Bab ini berisi metode-metode yang akan digunakan dalam mengimplementasikan one pass KNN. Metode yang digunakan adalah preprocessing, 1
2 pembangunan model klasifikasi dengan one pass clustering, dan kategorisasi teks dengan KNN Preprocessing Tahap preprocessing diawali dengan melakukan ekstraksi terhadap dataset yang berupa berkas XML. Berkas XML akan diekstrak berdasarkan tag-tag yang ada pada berkas tersebut. Tiap satu dokumen berita pada berkas dibatasi oleh tag REUTERS. Pada tag tersebut terdapat atribut LEWISSPLIT yang menyimpan informasi tentang tipe dokumen, apakah termasuk ke dalam data latih atau data uji. Dokumen termasuk ke dalam data latih apabila nilai dari atribut LEWISSPLIT adalah TRAIN. Sedangkan dokumen termasuk ke dalam data uji apabila nilainya adalah TEST. Kemudian, diambil juga isi dari tag DATE yang merepresentasikan tanggal dimuatnya berita. Tag TOPICS berisi daftar topik atau kategori yang menggambarkan isi dokumen. Tiap topik pada tag tersebut dipisahkan oleh tag D. Gambar 2.1 Diagram alir tahap preprocessing. Isi dari dokumen diambil dari tag TEXT yang di dalamnya juga terdapat tag TITLE yang mengandung informasi tentang judul dari berita, sedangkan isi dari berita itu sendiri terdapat pada tag BODY. Pada beberapa dokumen, tag TEXT dapat memiliki atribut TYPE dengan nilai UNPROC. Pada kasus tersebut, dokumen tidak memiliki judul, hanya memiliki isi saja. Setelah berkas XML dapat diekstrak informasi yang diinginkan menjadi sekumpulan dokumen, dokumen tersebut akan disimpan ke dalam database. Dokumen-dokumen yang telah disimpan tersebut dapat disebut sebagai corpus. Setelah semua dokumen tersimpan ke dalam database, dilakukan preprocessing terhadap tiap dokumen tersebut. Tahap ini diawali dengan melakukan case folding terhadap teks dalam dokumen. Case folding ini akan mengubah semua huruf dalam teks menjadi huruf kecil [5]. Setelah itu, dokumen akan dilakukan proses filtering, yaitu dengan membuang semua karakter yang tidak bersifat signifikan, seperti: tanda baca dan angka [5]. Dokumen kemudian akan diekstrak untuk mendapatkan term-term dari tiap dokumen. Ekstraksi term tersebut dilakukan dengan memisahkan teks dalam kalimat berdasarkan tanda white space. Termterm yang sudah didapat tersebut akan diseleksi berdasarkan daftar stop word. Selanjutnya, term-term yang terpilih akan melalui proses stemming menggunakan algoritma Porter. Secara keseluruhan, tahap preprocessing dapat dilihat pada Gambar 2.1. Kumpulan term-term yang sudah diekstrak akan direpresentasikan ke dalam bentuk vektor yaitu Vector Space Model (VSM) [6]. Bobot yang akan digunakan pada VSM tersebut adalah bobot tf-idf. Rumus tf-idf dinyatakan dalam Persamaan 2.1 berikut. w t,d = (1 + log tf t,d ) log 10 N df t (2.1) Dalam Persamaan 2.1, t merupakan term atau kata, dan d merupakan dokumen. Notasi N adalah total semua dokumen yang ada. Selanjutnya, bobot tfidf tersebut akan dinormalisasi dengan nilai cosine. Nilai cosine adalah jumlah dari tiap bobot dari term yang ada pada dokumen yang sama. Hasil penjumlahan tersebut kemudian diakarkuadratkan, kemudian nilainya membagi Pembangunan Model dengan Clustering Data yang sudah direpresentasikan ke dalam bentuk VSM akan dijadikan acuan untuk pembangunan model klasifikasi, terutama data latih. Pembangunan model klasifikasi ini menggunakan algoritma one pass clustering [2]. Algoritma clustering ini memiliki keunggulan dari segi waktu daripada algoritma clustering konvensional, seperti k- means, karena algoritma hanya membaca data satu kali selama proses clustering. Tahap-tahap proses one pass clustering dijelaskan sebagai berikut yang juga tersaji dalam diagram alir dalam Gambar 2.2: 1. Buat suatu himpunan kosong untuk menampung cluster, m Baca teks p dari corpus data latih. Bentuk cluster baru dengan anggota p, dan label dari cluster adalah label dari dari teks p. 3. Jika tidak ada teks yang bisa dibaca di corpus data latih, maka menuju ke nomor 6. Sebaliknya, baca teks baru p dari corpus, hitung kemiripan teks p dengan semua cluster C di m 0 menggunakan fungsi cosine. Ambil cluster yang terdekat dengan p atau yang nilai kemiripannya paling besar, sim(p,c*) sim(p,c). 4. Jika nilai sim(p,c*) < r atau label teks p berbeda dengan label cluster C*, maka menuju ke 2. Variabel r adalah variabel threshold yang akan dijelaskan kemudian. 5. Gabungkan teks p ke dalam cluster C* dan perbarui bobot dari tiap kata di C*. Kemudian, menuju ke Hentikan proses clustering. Ambil hasil clustering, m 0 = {C 1, C 2, C 3,, C 4 }, tiap cluster dalam m 0 berisi kumpulan kata berbobot dan label cluster. Himpunan m 0 adalah model klasifikasi. Dalam proses clustering di atas, terdapat proses pembaruan bobot. Strategi untuk pembaruan bobot 2
3 yang tercantum pada langkah 5 adalah pada Persamaan 2.2. w j+1 Ci (t) = w c i j (t) ci +w(t) p c i +1, (2.2) di mana w i+1 Ci (t) adalah bobot baru dari kata t dari cluster c i. w i ci (t) adalah bobot lama dari kata t dari cluster c i. w(t) p adalah bobot kata t pada teks p. Dan, c i adalah jumlah teks pada cluster c i. Selain pembaruan bobot, dalam proses clustering tersebut juga terdapat nilai r. Nilai r adalah nilai threshold yang dapat mempengaruhi efisiensi waktu dan kualitas dari clustering. Nilai r tersebut dapat di- 3. Hitung nilai rata-rata kemiripan yang didapat dari tahap 2 (ex). 4. Tentukan nilai r dari persamaan ε x ex, di mana ε 1. Model klasifikasi tersebut dapat diperbarui (update) apabila terdapat data pelatihan baru yang ingin ditambahkan. Algoritma one pass clustering memungkinkan model klasifikasi dapat diperbarui dengan mudah karena sifatnya yang incremental. Proses pembaruan model dimulai dari tahap ke (3) dari algoritma one pass clustering Kategorisasi Teks Model klasifikasi yang telah didapat dari proses clustering sebelumnya akan digunakan sebagai acuan untuk melakukan kategorisasi teks. Proses kategorisasi teks ini akan menggunakan algoritma K- Nearest Neighbour (KNN). Secara sederhana, algoritma ini bekerja dengan membandingkan jarak data masukan dengan sejumlah k data pelatihan yang paling dekat [4]. Secara matematis, algoritma KNN berdasarkan one pass clustering dijabarkan dalam Persamaan 2.3 [2]. f(x) = argmaxclusterscore x, c j j = argmax( C i KNN sim(x, C i )y(c i, c j )), (2.3) j di mana fungsi f(x) adalah fungsi yang mengembalikan label yang diberikan ke teks x. ClusterScore x, c j adalah skor kandidat perbandingan dokumen x dengan kumpulan kategori c j. Fungsi sim(x, C i ) mengembalikan nilai kemiripan (similarity) antara teks x dengan kategori C i. Dan, y(c i, c j ) akan bernilai 1 apabila cluster C i memiliki label c j, dan bernilai 0 apabila sebaliknya. Secara sederhana, proses kategorisasi ini akan menghitung nilai kemiripan antara teks masukan dengan cluster dari model klasifikasi. Kemudian, akan dipilih k cluster yang mempunyai nilai kemiripan paling besar. Menghitung skor dari kategori tiap-tiap cluster terpilih. Label dari kategori dengan skor terbesar akan menjadi label dari data teks masukan. 3. Skenario Uji Coba Gambar 2.2 Diagram alir tahap pembangunan model. peroleh dengan menggunakan teknik sampling sebagai berikut. 1. Pilih secara acak N 0 pasang teks dari corpus. 2. Hitung kemiripan (similarity) tiap pasang teks. Uji coba dilakukan pada lingkungan perangkat keras sebagai berikut: 1. Processor: Intel(R) Core(TM)2 Duo 2,10 GHz. 2. Memory: 2,99 GB. Sedangkan, lingkungan perangkat lunak yang dipakai adalah: 1. Sistem operasi: Windows XP SP3. 2. Tools: - XAMPP
4 - Java Runtime Enviroment Data yang digunakan pada uji coba ini adalah dataset Reuters Dari 135 kategori yang ada, hanya akan diambil 7 kategori saja, yaitu: ACQ, corn, crude, earn, interest, ship, dan trade. Tiap satu dokumen bisa saja memiliki dua kategori dan dianggap sebagai satu entitas yang berbeda tiap kategorinya. Dataset tersebut dibagi menjadi data latih dan data uji berdasarkan tag LEWISSPLIT pada berkas XML. Data latih adalah data yang digunakan sebagai acuan untuk membangun model klasifikasi, sedangkan data uji adalah data yang digunakan untuk menguji performa dari model klasifikasi tersebut. Jumlah data latih yang digunakan sebanyak 6010 dan jumlah data uji adalah sebanyak Rincian jumlah untuk masing-masing kategori dapat dilihat pada Tabel 3.1. Tabel 3.1 Tabel Pembagian Data Latih dan Data Uji No. Kategori Data Latih Data Uji 1 ACQ Corn Crude Earn Interest Ship Trade Total Proses evaluasi perlu dilakukan untuk melihat sejauh mana kinerja dari model klasifikasi yang telah dibangun. Evaluasi dilakukan dengan menggunakan 2388 data uji. Proses evaluasi ini akan menggunakan metode F 1 dan Macro-F 1. Metode evaluasi F 1 merupakan penerapan gabungan dari recall (r) dan precision (p) yang dinyatakan ke dalam Persamaan 3.1. F 1 merupakan nilai peforma untuk satu kategori. F 1 = 2 r p r + p (3.1) Sedangkan Macro-F 1 adalah nilai rata-rata dari nilai F 1 individu masing-masing kategori. Skenario uji coba pada makalah ini akan dilakukan sebanyak dua skenario. Skenario I adalah uji coba yang dilakukan untuk mencari parameter epsilon pada KNN berdasarkan one pass clustering (one pass KNN) yang menghasilkan performa paling bagus. Sedangkan skenario II adalah uji coba dilakukan melihat dan membandingkan performa algoritma one pass KNN dengan algoritma KNN konvensional. Skenario I pada uji coba ini dilakukan untuk mencari nilai epsilon pada algoritma one pass KNN yang menghasilkan performa terbaik. Hasil sebelumnya menyatakan bahwa nilai epsilon terbaik berada pada rentang nilai 3-10 [2]. Pada uji coba ini, dibangun model klasifikasi dengan algoritma one pass KNN dengan nilai epsilon tersebut. Nilai ratarata kemiripan antardokumen (ex) yang digunakan pada perhitungan nilai threshold diatur tetap yaitu 0, yang didapat dari uji coba dengan salah satu nilai epsilon. Hal tersebut dilakukan karena nilai ex bersifat acak. Pada proses klasifikasi, digunakan nilai k yang nilainya adalah 1, 5, 10, 20, 30, 45, 50, 60, 70, dan 80. Data latih yang digunakan adalah 6010 dokumen Reuters Sedangkan data uji yang digunakan adalah 2388 dokumen Reuters Performa diukur dengan metode F 1 dan Macro-F 1 di mana performa berbanding lurus dengan nilainya. Skenario II ini dilakukan untuk menguji performa one pass KNN dengan KNN konvensional. Uji coba dilakukan dengan menggunakan model klasifikasi yang dibangun dengan 6010 data latih. Untuk algoritma one pass KNN dalam pembangunan model klasifikasi, digunakan nilai epsilon = 4 merujuk pada uji coba skenario I yang menghasilkan performa paling bagus dan jumlah pasang dokumen adalah 8000 yang sama seperti pada [2]. Sedangkan pada algoritma KNN, tidak diperlukan masukkan parameter apapun karena algoritma ini merupakan algoritma lazy learner yang tidak membangun model klasifikasi. Nilai k yang dipakai untuk melakukan klasifikasi adalah 1, 5, 10, 20, 30, 45, 50, 60, 70, dan 80. Performa akan dihitung berdasarkan output data uji yang berjumlah sebanyak Performa akan diukur dengan metode F 1 dan Macro-F 1, serta dengan waktu komputasi. 4. Hasil Uji Coba Bagian ini akan menjelaskan hasil uji coba yang telah dilakukan pada skenario I. Data yang ditampilkan adalah data dari performa empat nilai k terbaik dengan delapan macam nilai epsilon. Nilai k tersebut antara lain: 10, 20, 30, 50. Hasil uji coba disajikan dalam tabel di mana satu tabel yang berisi nilai Macro-F 1 untuk delapan nilai epsilon. Tabel 4.1 menunjukkan hasil uji coba dengan nilai k = 10. Pada hasil uji coba tersebut, didapat nilai Macro-F 1 di atas 0,85 secara keseluruhan. Nilai Macro-F 1 terendah pada nilai epsilon sebesar 7 yaitu 0,8569. Sedangkan Nilai Macro-F 1 tertinggi didapat pada nilai epsilon 8 dengan nilai 0,8658. Hasil tersebut menunjukkan kecenderungan nilai Macro-F 1 yang makin kecil walaupun sempat mengalami kenaikan yang cukup signifikan pada epsilon 8. Hasil uji coba dengan nilai k = 20 dijabarkan pada Tabel 4.1. Hasil secara keseluruhan berisi nilai Macro-F 1 hampir di atas 0,86. Nilai Macro-F 1 maksimum adalah 0,87803 pada epsilon = 4. Nilai Macro-F 1 minimum yang didapat pada epsilon 6 adalah 0,8595. Pada uji coba ini, didapat kecenderungan semakin besar nilai epsilon, semakin turun performanya. Titik penurunan berada pada epsilon 5. 4
5 Tabel 4.1 Performa pada Empat Nilai k. epsilon Macro-F 1 k=10 k=20 k=30 k=50 3 0,8632 0,8764 0,8739 0, ,8628 0,8780 0,8802 0, ,8639 0,8743 0,8692 0, ,8621 0,8595 0,8596 0, ,8569 0,8666 0,8641 0, ,8658 0,8640 0,8598 0, ,8650 0,8603 0,8629 0, ,8580 0,8602 0,8610 0,8626 Hasil uji coba dengan nilai k = 30 dalam tabel 4.1 menghasilkan performa Macro F 1 yang cukup baik karena secara keseluruhan nilainya hampir di atas 0,85. Nilai terkecil berada saat epsilon 6 dengan nilai Macro-F 1 0,8596 dan nilai terbesar adalah 0,8802 saat epsilon = 4. Pada uji coba ini, kecenderungan nilai Macro-F 1 dengan epsilon adalah menurun. Hasil uji coba pada nilai k = 50 pada tabel 4.1 menunjukkan kecenderungan nilai Macro-F 1 meningkat seiring dengan meningkatnya nilai epsilon. Namun, kecenderungan tersebut mengalami pengecualian pada nilai epsilon = 7 di mana performa mengalami penurunan secara drastis. Hasil uji coba ini menghasilkan rentang nilai antara 0,8550 pada epsilon = 7 hingga 0,8633 pada epsilon = 6. Tabel 4.2 menunjukkan perbandingan jumlah cluster dengan berbagai nilai epsilon. Jumlah cluster yang terbentuk berbanding lurus dengan nilai epsilon yang diberikan. Jumlah cluster bertambah dengan sekitar 200 cluster tiap peningkatan nilai epsilon. Tabel 4.2 Perbandingan Performa berdasarkan Nilai epsilon. epsilon Jumlah Cluster Gambar 4.1 menunjukkan grafik perbandingan nilai epsilon dengan performa dengan empat nilai k. Kecenderungan yang didapat secara umum adalah semakin besar nilai epsilon, semakin kecil nilai performanya yang terlihat pada grafik. Macro-F 1 0,89 0,88 0,87 0,86 0,85 0, epsilon Gambar 4.1 Grafik performa Macro-F 1 terhadap nilai epsilon pada Skenario I. Dari tabel 4.3, ditunjukkan performa hasil klasifikasi dari algoritma one pass KNN dan KNN konvensional yang dinyatakan dengan nilai Macro-F 1 dan waktu komputasi. Nilai Macro-F 1 ditampilkan dalam sebuah grafik pada Gambar 4.2. Dari grafik tersebut, terlihat bahwa performa algoritma one pass KNN dengan epsilon 4 hampir selalu lebih baik daripada algoritma KNN konvensional pada berbagai nilai k yang ditunjukkan garis grafik one pass KNN hampir selalu di atas dari garis grafik KNN, kecuali pada nilai k = 1. Kedua algoritma sama-sama mengalami kecenderungan penurunan performa pada saat nilai k = 45. Algoritma one pass KNN mencapai hasil performa terbaiknya pada nilai k = 30 dengan nilai Macro-F 1 adalah 0,8802. Sedangkan algoritma KNN mencapai hasil performa terbaik pada nilai k = 50 dengan nilai Macro-F 1 adalah 0,8509. Tabel 4.3 Hasil Uji Coba dari One Pass KNN (epsilon=4) dan KNN Tradisional. Waktu Klasifikasi Macro-F1 k One Pass One Pass KNN KNN KNN KNN ,7409 0, ,8406 0, ,8628 0, ,8780 0, ,8802 0, ,8686 0, ,8631 0, ,8602 0, ,8580 0, ,8452 0,8369 k=10 k=20 k=30 k=50 5
6 Macro-F1 0,9 0,85 0,8 0,75 0,7 0, Nilai k One Pass KNN KNN Gambar 4.2 Grafik performa Macro-F 1 terhadap nilai k. Pada Tabel 4.3, juga ditampilkan hasil waktu komputasi dari masing-masing kategori. Waktu komputasi untuk algoritma one pass KNN berkisar pada 197 detik. Sedangkan pada algoritma KNN, waktu komputasinya berkisar 1529 detik. Sehingga, terlihat bahwa algoritma one pass KNN memiliki waktu komputasi yang jauh lebih baik daripada algoritma KNN konvensional pada data latih yang sama. Namun, algoritma one pass KNN memiliki waktu untuk melakukan pembangunan model klasifikasi yang bernilai sebesar 905 detik. Hasil performa terbaik tiap kategori dapat dilihat pada Tabel 4.4. Dari tabel tersebut, terlihat algoritma one pass KNN memiliki performa lebih baik pada semua kategori, kecuali kategori corn, crude, dan interest. Kedua algoritma sama-sama mendapatkan nilai performa kurang baik pada kategori crude dan ship yang hanya ada pada kisaran 0,7. Tabel 4.4 Perbandingan Detail Kategori Skenario II. One Pass KNN (k=30) KNN (K=50) Kategori Jumlah Cluster Nilai F 1 Nilai F 1 ACQ 529 0,9580 0,8365 Corn 38 0,9259 0,9310 Crude 122 0,7625 0,7933 Earn 491 0,9798 0,9135 Interest 56 0,9008 0,9098 Ship 89 0,7477 0,7000 Trade 96 0,8863 0, ,8802 0, Pembahasan Hasil uji coba skenario I terhadap algoritma one pass KNN dengan berbagai nilai parameter epsilon menunjukkan hasil performa yang cukup baik. Hasil performa terbaik didapat pada nilai epsilon = 4, yaitu 0, Dari berbagai nilai epsilon yang diujicoba, didapat kecenderungan jumlah cluster yang makin bertambah seiring dengan nilai epsilon yang diberikan. Hal tersebut wajar terjadi karena semakin besar nilai epsilon, maka semakin besar pula nilai threshold yang didapat. Semakin besar nilai threshold, akan semakin kecil pula batasan hyper sphere pada suatu cluster yang menyebabkan semakin kecil peluang suatu dokumen untuk masuk ke dalam cluster tersebut. Selain itu, terdapat juga kecenderungan semakin bertambahnya nilai epsilon semakin menurun performanya. Dengan makin bertambahnya nilai epsilon, maka jumlah jangkauan cluster yang terbentuk makin kecil. Dengan kecilnya jangkau cluster, maka peluang data noise untuk membentuk suatu cluster sendiri makin besar. Sehingga, hasil klasifikasi dapat berpengaruh tidak baik. Namun, dengan semakin besarnya jangkauan cluster, maka pengaruh data tereduksi karena data tersebut akan dilebur menjadi satu centroid. Hasil uji coba skenario II terhadap algoritma one pass KNN dibandingkan dengan algoritma KNN menunjukkan bahwa algoritma one pass KNN memiliki performa lebih baik daripada algoritma KNN konvensional. Algoritma one pass KNN memiliki perbaikan performa rata-rata sebesar 2,63 % dibandingkan dengan algoritma KNN. Algoritma KNN lebih baik daripada algoritma one pass KNN hanya pada k = 1. Nilai tersebut dapat diabaikan karena hasil tersebut dapat saja terpengaruh oleh noise yang merupakan kekurangan algoritma KNN konvensional [4]. Performa one pass KNN lebih baik karena nilai bobot tiap term dari masing-masing dokumen dengan kategori yang sama telah tergeneralisasi menjadi satu cluster. Sehingga, dokumen yang memiliki karakteristik data berbeda dari normal akan berkurang pengaruhnya. Hasil performa tiap kategori yang dapat dilihat Tabel 4.4 dan menunjukkan hasil yang cukup baik di hampir semua kategori dengan nilai F 1 di atas Namun, performa mengalami penurunan pada kategori crude dan ship yang hanya mencapai kisaran nilai 0,75. Hal tersebut terjadi karena karakteristik dataset yang memungkinkan satu dokumen mempunyai banyak kategori. Kategori crude dan ship 6
7 merupakan kategori yang paling banyak berpotongan dalam dataset ini. Dalam uji coba skenario II, terdapat kecenderungan nilai performa makin menurun seiring dengan bertambahnya nilai k. Performa kedua algoritma sama-sama cenderung menurun pada saat k = 45. Hal itu dapat disebabkan dari karakteristik data latih yang diberikan. Jumlah dokumen untuk masingmasing kategori sangat tidak berimbang. Kategori corn hanya memiliki data latih sebanyak 118, namun kategori earn memiliki data latih sebanyak Dengan bertambahnya jumlah dokumen atau cluster yang dipilih seiring dengan nilai k, menyebabkan dominasi kategori yang seharusnya terpilih makin menurun karena jumlahnya kalah dari kategori lain. Total waktu one pass KNN selisih 80% dari total waktu KNN. Algoritma one pass KNN memiliki waktu yang jauh lebih baik dalam proses klasifikasi. Namun, algoritma one pass memerlukan waktu untuk melakukan pembangunan model. Hal tersebut tidak menjadi masalah karena proses tersebut dapat dilakukan sekali. Lebih efisiensinya waktu dari algoritma one pass KNN disebabkan oleh komputasi yang dilakukan dengan membandingkan data masukkan dengan data latih tereduksi karena sistem hanya perlu membandingkan dengan centroid dari cluster-cluster yang telah terbentuk. 6. Kesimpulan Dari implementasi dan hasil uji coba terhadap algoritma one pass KNN untuk kategorisasi teks, dapat diambil kesimpulan: 1. Algoritma one pass KNN dapat diimplementasikan dengan melakukan preprocessing untuk mengubah dokumen menjadi vektor. Kemudian, membangun model klasifikasi berupa cluster dengan algoritma one pass clustering dan dapat memperbaruinya. Model klasifikasi digunakan untuk mengklasifikasi dengan algoritma KNN. Evaluasi dilakukan dengan metode F 1 dan Macro-F Semakin besar nilai threshold yang dipengaruhi oleh nilai epsilon, maka performa cenderung makin menurun. Hal ini juga berlaku untuk perbandingan performa dengan nilai k. Nilai threshold terbaik adalah saat epsilon bernilai Performa one pass KNN lebih baik daripada performa KNN konvensional di mana performa one pass KNN bernilai 88% pada pada epsilon sebesar 4 dan nilai k sebesar 30 dibanding dengan performa KNN yang bernilai hanya 85% saat nilai k = Efisiensi waktu komputasi algoritma one pass KNN 70% lebih baik daripada waktu komputasi algoritma KNN konvensional. Namun, algoritma one pass KNN memerlukan waktu untuk melakukan pembangunan model. Waktu pembangunan model dapat diabaikan dalam perbandingan ini karena hal tersebut dilakukan hanya sekali saja. 7. Daftar Pustaka [1] F. Sebastiani, Machine learning in automated text categorization, ACM Computing Surveys, vol. 34, no. 1, pp. 1-47, [2] S. Jiang, G. Pang, M. Wu and L. Kuang, "An improved K-nearest-neighbor algorithm for text categorization," Expert Systems with Applications, vol. 39, pp , [3] Y. Yang dan X. Liu, A Re-examination of Text Categorization Methods, dalam Proceedings 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), Berkeley, [4] P.-N. Tan, M. Steinbach dan V. Kumar, Introduction to Data Mining, 1st penyunt., Boston: Pearson Addison Wesley, [5] C. D. Manning, P. Raghavan dan H. Schütze, An Introduction to Information Retrieval, Cambridge: Cambridge University Press, [6] G. Salton, A. Wong dan C. S. Yang, A Vector Space Model for Automatic Indexing, Communications of the ACM, vol. 18, no. 11, pp ,
Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks
Implementasi Algoritma K-Nearest Neighbour yang berdasarkan One Pass Clustering untuk Kategorisasi Teks Penyusun: Andreas Daniel Arifin - 5108100132 Pembimbing: Isye Arieshanti, S.Kom, M.Phil Dr. Agus
Lebih terperinciKlasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN
Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom
Lebih terperinciINTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN
INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com
Lebih terperinciStemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi
Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic
Lebih terperinciMetode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa Menggunakan Support Vector Machine (SVM)
Scientific Journal of Informatics Vol. 3, No. 1, Mei 20xx p-issn 2407-7658 http://journal.unnes.ac.id/nju/index.php/sji e-issn 2460-0040 Metode K-Means untuk Optimasi Klasifikasi Tema Tugas Akhir Mahasiswa
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciBAB V EKSPERIMEN TEXT CLASSIFICATION
BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan
Lebih terperinciKLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR
KLASTERISASI DOKUMEN ARTIKEL ILMIAH MENGGUNAKAN ALGORITMA SINGLE PASS CLUSTERING DENGAN DETEKSI KESAMAAN KATA TUGAS AKHIR Diajukan Untuk Memenuhi Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciAnalisis Perbandingan Algoritma Fuzzy C-Means dan K-Means
Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.
Lebih terperinciBAB III METODELOGI PENELITIAN
BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciUKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah
1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja
Lebih terperinciBAB I. Pendahuluan. 1. Latar Belakang Masalah
BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Lebih terperinciPRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)
PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir
Lebih terperinciPENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS
PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciOPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS
TELEMATIKA, Vol. 13, No. 02, JULI, 2016, Pp. 59 68 ISSN 1829-667X OPTIMALISASI SUPPORT VEKTOR MACHINE (SVM) UNTUK KLASIFIKASI TEMA TUGAS AKHIR BERBASIS K-MEANS Oman Somantri (1), Slamet Wiyono (2), Dairoh
Lebih terperinciROCCHIO CLASSIFICATION
DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN. jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua
BAB IV HASIL DAN PEMBAHASAN 4.1. Dokumen yang digunakan Pada penelitian yang dilakukan oleh penulis ini menggunakan dua jenis dokumen, yaitu dokumen training dan dokumen uji. Kemudian dua jenis dokumen
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Meningkatnya perkembangan teknologi juga diikuti dengan berkembangnya penggunaan berbagai situs jejaring sosial. Salah satu jejaring sosial yang sangat marak digunakan
Lebih terperinciBAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana
BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian
Lebih terperinciEFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA
EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik
Lebih terperinciBAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah
BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu
Lebih terperinciHASIL DAN PEMBAHASAN
10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.
Lebih terperinciBAB II TINJAUAN PUSTAKA
digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter
Lebih terperinciBAB I PENDAHULUAN I.1. Latar Belakang Masalah
BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database
Lebih terperinciBAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine
BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi Penelitian adalah sekumpulan peraturan, kegiatan, dan prosedur yang digunakan oleh pelaku suatu disiplin ilmu. Metodologi juga merupakan analisis teoritis mengenai
Lebih terperinciBAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]
BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi
Lebih terperinciIMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA. Tugas Akhir
IMPLEMENTASI ALGORITMA NAÏVE BAYES UNTUK EKSTRAKSI KALIMAT OPINI PADA ARTIKEL BERBAHASA INDONESIA Tugas Akhir Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah
Lebih terperinciPENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI
18 PENERAPAN SISTEM TEMU KEMBALI INFORMASI PADA KUMPULAN DOKUMEN SKRIPSI Karter D. Putung, Arie Lumenta, Agustinus Jacobus Teknik Informatika Universitas Sam Ratulangi Manado, Indonesia. karterputung@gmail.com,
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciKLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO
F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan
Lebih terperinciPERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY
Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik
Lebih terperinciImplementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No., Oktober 28, hlm. 3939-3947 http://j-ptiik.ub.ac.id Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciWEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR
WEIGHT K-SUPPORT VECTOR NEAREST NEIGHBOR Eko Prasetyo 1), Rifki Fahrial Zainal 2), Harunur Rosyid 3) 1), 2) Teknik Informatika Universitas Bhayangkara Surabaya Jl. A. Yani 114, Surabaya, 60231 3) Teknik
Lebih terperinciPENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Abstrak
PENGENALAN POLA KEPUASAN MAHASISWA TERHADAP KEGIATAN BELAJAR MENGAJAR (STUDI KASUS DI STMIK AKAKOM YOGYAKARTA) Dini Fakta Sari Teknik Informatika STMIK AKAKOM Yogyakarta dini@akakom.ac.id Abstrak Tenaga
Lebih terperinciHASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:
2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahap-tahap yang dilaksanakan dalam pembuatan tugas akhir. Adapun tahapan yang dilalui dalam pelaksanaan penelitian ini adalah
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciPemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi
Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami
Lebih terperinciStudi Penggunaan Data Exif Untuk Mengukur Pengaruhnya. Terhadap Peningkatan Kinerja Image Search Engine
Studi Penggunaan Data Exif Untuk Mengukur Pengaruhnya Terhadap Peningkatan Kinerja Image Search Engine Nugroho Herucahyono (13504038) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika,
Lebih terperinciINDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX
INDEXING AND RETRIEVAL ENGINE UNTUK DOKUMEN BERBAHASA INDONESIA DENGAN MENGGUNAKAN INVERTED INDEX Wahyu Hidayat 1 1 Departemen Teknologi Informasi, Fakultas Ilmu Terapan, Telkom University 1 wahyuhidayat@telkomuniversity.ac.id
Lebih terperinciKlasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved k-nearest Neighbor
Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: 2548-964X Vol. 2, No. 2, Februari 2018, hlm. 486-492 http://j-ptiik.ub.ac.id Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciK-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN Eko Prasetyo 1) 1 Program Studi Teknik Informatika, Fakultas Teknik, Universitas Bhayangkara Surabaya 2 Jalan A. Yani 11, Surabaya, 60231
Lebih terperinciAnalisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering
Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciPERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak
ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama
Lebih terperinciBandung, Indonesia Bandung, Indonesia
ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Kehadiran teknologi web yang interaktif telah merubah cara orang mengekspresikan pandangan dan opininya. Saat ini pengguna dapat menulis ulasan suatu produk pada situs
Lebih terperinciBAB I PENDAHULUAN. penyimpanan dan cepat. Tuntutan dari gerakan anti global warming juga
1 BAB I PENDAHULUAN A. Latar Belakang Dalam era teknologi informasi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi
Lebih terperinciBAB IV PREPROCESSING DATA MINING
BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan
Lebih terperinciImplementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas
Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan
Lebih terperinciBAB II TINJAUAN PUSTAKA
7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan
Lebih terperincibeberapa tag-tag lain yang lebih spesifik di dalamnya.
metode mana yang lebih baik digunakan untuk memilih istilah ekspansi yang akan ditambahkan pada kueri awal. Lingkungan Implementasi Perangkat lunak yang digunakan untuk penelitian yaitu:. Windows Vista
Lebih terperinciBAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen
BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi
Lebih terperinciBAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN
28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi
Lebih terperinciBab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah
Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin
Lebih terperinciIMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS
IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut
Lebih terperinciBAB IV HASIL DAN PEMBAHASAN
BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera
Lebih terperinciII TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,
5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat
Lebih terperinciJURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: ( Print) A-75
JURNAL TEKNIK ITS Vol. 6, No. 1, (2017) ISSN: 2337-3539 (2301-9271 Print) A-75 Pendeteksian Malware pada Lingkungan Aplikasi Web dengan Kategorisasi Dokumen Fransiskus Gusti Ngurah Dwika Setiawan, Royyana
Lebih terperinciBAB IV EKSPERIMEN. 4.1 Tujuan
BAB IV EKSPERIMEN Pada bab ini dibahas mengenai eksperimen penggunaan SVM dalam pendeteksian intrusi pada jaringan. Pembahasan ini meliputi tujuan yang ingin dicapai melalui eksperimen ini, parameter evaluasi
Lebih terperinciSISTEM TEMU KEMBALI INFORMASI
SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik
Lebih terperinciKLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari
KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi
Lebih terperinciGambar 1.1 Proses Text Mining [7]
1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat
Lebih terperinciBAB III METODOLOGI PENELITIAN
28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian
Lebih terperinciTEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK
F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas
Lebih terperinciSTUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR
STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciContoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor
Contoh Perhitungan Kemiripan Cosinus pada Model Ruang Vektor Persoalan 1: Ada 4 dokumen (D1 s.d D4): D1: dolar naik harga naik penghasilan turun D2: harga naik harusnya gaji juga naik D3: Premium tidak
Lebih terperinciANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE
ANALISIS SKEMA-SKEMA KEMIRIPAN VEKTOR PADA SISTEM PENILAIAN UJIAN ESSAY ONLINE Trisna Ari Roshinta 1, Faisal Rahutomo 2, Deddy Kusbianto 3 1,2,3 Teknik Informatika, Teknologi Informasi, Politeknik Negeri
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan
Lebih terperinciPembersihan Data Lingkungan Pengembangan Sistem HASIL DAN PEMBAHASAN
3 Nilai fuzzy support bagi frequent sequence dengan ukuran k diperoleh dengan mengkombinasikan frequent sequence dengan ukuran k-1. Proses ini akan berhenti jika tidak memungkinkan lagi untuk membangkitkan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun
Lebih terperinciBAB I PENDAHULUAN. 1.1 Latar belakang
BAB I PENDAHULUAN 1.1 Latar belakang Dalam beberapa tahun terakhir teknologi informasi dan telekomunikasi berkembang dengan pesat. Masyarakat mendapatkan manfaat dari tekonologi informasi dan telekomunikasi
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini
Lebih terperinciSENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER
SENTIMENT ANALYSIS DENGAN NAIVE BAYES UNTUK MELIHAT PERSEPSI MASYARAKAT TERHADAP BATIK PADA JEJARING SOSIAL TWITTER Anindya Apriliyanti P. Departemen Statistika FMIPA Universitas Padjadjaran a.apriliyanti.p@gmail.com
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi internet memunculkan berbagai metode komunikasi yang mudah, murah, dan cepat. Salah satu media yang paling populer dan sangat cepat berkembang
Lebih terperinciPERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM. Achmad Maududie 1 Wahyu Catur Wibowo 2. Abstrak
PERBAIKAN INISIALISASI K-MEANS MENGGUNAKAN GRAF HUTAN YANG MINIMUM Achmad Maududie 1 Wahyu Catur Wibowo 2 1 Program Studi Sistem Informasi, Universitas Jember 2 Fakultas Ilmu Komputer, Universitas Indonesia,
Lebih terperinciPENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH)
PENGELOMPOKAN DOKUMEN MENGGUNAKAN ALGORITMA DIG (DOCUMENT INDEX GRAPH) Shofi Nur Fathiya (13508084) Program Studi Teknik Informatika Sekolah Teknik Elektro dan Informatika Institut Teknologi Bandung Jalan
Lebih terperinciPenerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia
Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas
Lebih terperinciBAB I PENDAHULUAN 1.1. Latar Belakang
BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang
Lebih terperinciBAB 3 METODE PENELITIAN. pengelolaan dokumen yang efektif agar kita dapat me-retrieve informasi yang
58 BAB 3 METODE PENELITIAN 3.1 Analisis Masalah Seiring dengan perkembangan zaman, jumlah informasi yang disimpan dalam betuk digital semakin bertambah, sehingga dibutuhkan cara pengorganisasian dan pengelolaan
Lebih terperinciPEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE
Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas
Lebih terperinciBAB II LANDASDAN TEORI
DAFTAR ISI HALAMAN SAMPUL... HALAMAN JUDUL... i LEMBAR PERSETUJUAN... ii LEMBAR PENGESAHAN... iii MOTTO DAN PERSEMBAHAN... iv LEMBAR KEASLIAN... v HALAMAN PERNYATAAN PUBLIKASI... vi ABSTAKSI... vii ABSTRACT...
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user
Lebih terperinciPERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL
PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE
Lebih terperinciBAB III METODE PENELITIAN
BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review
Lebih terperinciTemu-Kembali Informasi 2017
Temu-Kembali Informasi 2017 Proyek Pemrograman Terpadu (Tiga Tahapan) Husni Husni@Trunojoyo.ac.id Proyek Pemrograman #1 Husni Proyek Pemrograman #1: Indexing Sasaran (goal): membangun suatu inverted index
Lebih terperinci