Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer

Ukuran: px
Mulai penontonan dengan halaman:

Download "Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer"

Transkripsi

1 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer e-issn: X Vol. 2, No., Oktober 28, hlm Implementasi Metode Improved K-Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan Teknologi Informasi Dan Ilmu Komputer Muhammad Abdurasyid, Indriati 2, Rizal Setya Perdana 3 Program Studi Teknik Informatika, muhammadabdurasyid@gmail.com, 2 indriati.tif@ub.ac.id, 3 rizalespe@ub.ac.id Abstrak Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya yang diterbitkan secara berkala. J-PTIIK merupakan dokumen jurnal yang memiliki topik jurnal berada dalam bidang teknologi informasi dan ilmu komputer. Pada saat ini J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J-PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dibuat dengan menggunakan metode improved k-means. Metode improved k-means merupakan teknik klasterisasi unsupervised dengan penentuan centroid awal klaster diperoleh dengan cara menggabungkan metode optimasi jarak dan densitas. Praproses dokumen dan pembentukan vector space model untuk melakukan pembobotan kata dilakukan terlebih dahulu sebelum mengelompokkan dokumen J-PTIIK. Berdasarkan hasil pengujian, pengelompokan dokumen J-PTIIK memperoleh hasil silhouette coefficient optimal sebesar,26574 pada k = 9 dan α =,5. Hasil pengujian purity optimal diperoleh sebesar,73897 pada k = 23 dan α =,5. Hasil penelitian menunjukkan penggunaan metode improved k-means memiliki silhouette coefficient yang lebih baik dibandingkan metode k-means, dengan nilai rata-rata silhouette coefficient pada metode improved k-means sebesar, dan metode k-means sebesar, Kata Kunci: Praproses Teks, Vector Space Model, Pembobotan Kata, Klasterisasi, Improved K-Means Abstract Journal of Information Technology and Computer Science Development (J-PTIIK) is a scientific journal in the field of computer that contains scientific writings of research results FILKOM Brawijaya University students that published periodically. J-PTIIK is a journal document that has journal topics that are in the field of information technology and computer science. At this time J-PTIIK is clustered by volume archive and published journal number. To facilitate the identification of journal topics contained in J-PTIIK, J-PTIIK documents can be clustered based on similarity of topics contained in J- PTIIK. J-PTIIK documents clustering is made using improved k-means method. The improved k-means method is the unsupervised clustering techniques with the initial centroid determination obtained by combining the optimization method of distance and density. Document pre-processing and formation of vector space model to perform term weighting is done first before clustering the J-PTIIK documents. Based on the evaluation results, J-PTIIK documents clustering obtained an optimal silhouette coefficient by at k = 9 and α =.5. Optimal purity test results obtained by at k = 23 and α =.5. The research result shows that the use of improved k-means method has better silhouette coefficient than k-means method, with average value of silhouette coefficient at improved k-means method by and k-means method by Keywords: Text Pre-Processing, Vector Space Model, Term Weighting, Clustering, Improved K-Means. PENDAHULUAN Jurnal ilmiah merupakan majalah publikasi yang diterbitkan secara berkala mengandung data dan informasi yang mengajukan iptek dan Fakultas Ilmu Komputer Universitas Brawijaya 3939

2 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 394 ditulis sesuai dengan kaidah-kaidah penulisan ilmiah. Di Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya terdapat publikasi jurnal ilmiah yang dikenal dengan nama Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer atau biasa disingkat J-PTIIK. J-PTIIK merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil penelitian mahasiswa/i FILKOM Universitas Brawijaya, dimana hasil penelitian berasal dari keminatan program studi FILKOM Universitas Brawijaya. J-PTIIK dapat diakses secara online dengan menggunakan web browser. J-PTIIK pada saat ini dikelompokkan berdasarkan arsip volume dan nomor terbit jurnal. J-PTIIK yang merupakan sebuah dokumen jurnal memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Untuk memudahkan identifikasi topik jurnal yang terdapat pada J- PTIIK, maka dokumen J-PTIIK dapat dikelompokkan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK. Pengelompokan dokumen J-PTIIK dapat dilakukan dengan menggunakan teknik klasterisasi agar dokumen J-PTIIK dikelompokkan berdasarkan kemiripan objek topik antar dokumen J-PTIIK di dalam suatu klaster. Klasterisasi merupakan salah satu teknik yang efisien digunakan pada data mining dalam melakukan pengelompokan objek ke dalam kelas yang sama berdasarkan tingkat kemiripan antar objek dalam kelas. Teknik klasterisasi terdiri dari dua model, antara lain model hierarki dan model partisi. Salah satu algoritme klasterisasi yang banyak digunakan pada model partisi adalah metode k-means (Reddy & Jana, 22). Metode k-means merupakan algoritme yang cukup sederhana dan termasuk ke dalam teknik klasterisasi unsupervised (Karimov & Ozbayoglu, 25). Metode k-means membandingkan nilai jarak terhadap centroid pada masing-masing klaster yaitu nilai rata-rata centroid klaster (Chayangkoon & Srivihok, 26). Metode k- means memiliki beberapa batasan masalah dalam prosesnya. Salah satu batasan masalah yang terdapat dalam metode k-means adalah pemilihan centroid awal yang dilakukan secara acak. Pemilihan centroid awal secara acak dapat menghasilkan kualitas klaster yang tidak baik (Rahman, Islam, & Bossomaier, 25). Pemilihan centroid awal secara acak juga menyebabkan hasil klaster yang selalu berbeda pada tiap proses pengelompokan (Karimov & Ozbayoglu, 25). Oleh karena batasan masalah tersebut, metode improved k-means digunakan sebagai solusi untuk memilih centroid awal yang akan digunakan dalam proses k-means. Dalam prosesnya metode improved k-means terlebih dahulu mencari centroid awal klaster, hal ini berbeda dengan metode k-means yang menentukan centroid awal secara acak. Hasil evaluasi metode improved k-means pada saat digunakan untuk mengelompokkan hasil pencarian dokumen web memiliki kualitas klaster yang lebih tinggi berdasarkan pengukuran jarak intra klaster dan inter klaster bila dibandingkan dengan k-means (Poomagal & Hamsapriya, 2). Hasil evaluasi metode improved k-means juga memiliki akurasi yang lebih baik bila dibandingkan dengan menggunakan metode k-means (Sutariya & Amin, 23). Hasil evaluasi metode improved k- means yang digunakan untuk mengelompokkan dokumen teks berbahasa Cina dasar juga memiliki nilai presisi dan recall yang lebih tinggi bila dibandingkan dengan metode k- means (Xiong, et al., 26). Berdasarkan permasalahan yang ada, maka penulis mengajukan penelitian yang memiliki luaran berupa sebuah sistem pengelompokan dokumen J-PTIIK dengan menggunakan metode improved k-means. 2. STUDI PUSTAKA 2.. Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer (J-PTIIK) merupakan jurnal keilmuan di bidang komputer yang memuat tulisan ilmiah hasil dari penelitian mahasiswa/i Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya. J-PTIIK memiliki luaran dalam mengembangkan penelitian dan memberikan kontribusi yang berarti dalam meningkatkan sumber daya penelitian di bidang teknologi informasi dan ilmu komputer. J-PTIIK diterbitkan oleh Fakultas Ilmu Komputer (FILKOM) Universitas Brawijaya, dimana jurnal ini merupakan hasil penelitian yang berasal dari program studi FILKOM Universitas Brawijaya seperti magister ilmu komputer, teknik informatika, sistem komputer, sistem informasi, teknologi informasi dan pendidikan teknologi informasi. Jurnal pengembangan teknologi informasi dan ilmu komputer dapat dilihat dan diakses secara online melalui web J-PTIIK yang

3 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 394 beralamatkan di j-ptiik.ub.ac.id. J-PTIIK dikelompokkan berdasarkan arsip volume dan nomor terbit, dimana volume menandakan tahun terbit jurnal sementara nomor terbit menandakan bulan terbit jurnal. J-PTIIK diterbitkan sebulan sekali oleh FILKOM Universitas Brawijaya. J- PTIIK pertama kali terbit di bulan Januari 27 dengan kode arsip Vol No (27). J-PTIIK memiliki topik jurnal yang berada dalam bidang teknologi informasi dan ilmu komputer. Beberapa topik J-PTIIK yang sudah terbit antara lain adalah seperti sistem pakar, fuzzy, algoritme genetika, pengembangan perangkat lunak, pengembangan jaringan dan topik-topik teknologi informasi dan ilmu komputer lainnya. Sehingga J-PTIIK dapat dilakukan pengelompokan berdasarkan kemiripan topik yang terdapat dalam J-PTIIK Text Mining Text mining adalah suatu proses dalam menemukan dan mengekstrak informasi dari sekumpulan sumber teks yang banyak dan tidak terstruktur (KM & Reddy, 26). Sumber teks dapat berupa , chat, SMS, artikel koran, jurnal, ulasan produk dan catatan organisasi. Teks yang tidak terstruktur ini tidak mudah diproses oleh komputer sehingga dibutuhkan beberapa teknik untuk mengekstrak beberapa informasi (Dang & Ahmad, 24). Text mining biasa dilalukan untuk tujuan khusus dan informasi hasil text mining disimpan ke dalam sebuah database (Kumar & Bhatia, 23). Penelitian dalam text mining merupakan pengembangan dalam beberapa teknik matematika, statistik, linguistik dan pengenalan pola yang mampu menganalisis informasi tidak terstruktur secara otomatis sehingga menghasilkan ekstraksi data yang berkualitas dan relevan. Dokumen teks terdiri dari karakter yang secara bersama membentuk suatu kata yang selanjutnya dapat membentuk frasa. Text mining harus mampu mengenali, mengekstrak dan menggunakan informasi ini, baik pencarian dalam bentuk kata maupun pengenalan semantik sehingga menghasilkan pencarian dalam level tertinggi (Kumar & Bhatia, 23). Text mining memiliki aktivitas proses secara terurut yang harus dilakukan agar perolehan informasi didapat secara efisien (Kumar & Bhatia, 23). Proses dari text mining terdiri dari praproses teks, transformasi teks, pemilihan fitur, data mining dan evaluasi Praproses Teks Praproses teks memiliki peranan yang sangat penting dalam teknik dan aplikasi text mining. Praproses teks merupakan langkah pertama yang dilakukan dalam proses text mining (Vijayarani, Ilamathi, & Nithya, 2). Praproses teks ditujukan untuk membentuk corpus dan lexicon dari keseluruhan dokumen yang ada (Çakir & Güldamlasroglu, 26). Sebelum teks diterjemahkan ke dalam vektor, praproses teks dilakukan untuk membersihkan dan menyusun data. Praproses teks mengubah data teks mentah menjadi sebuah kata linguistik yang terdefinisikan dengan baik. Tahapan dari praproses teks meliputi menghapus tanda baca dan angka, mengubah huruf kapital menjadi huruf kecil (case folding), melakukan tokenisasi, mengubah kata berimbuhan menjadi bentuk kata dasar (stemming) dan menghapus stop word Pembobotan Kata Pembobotan kata di dalam vektor dokumen dapat ditentukan dengan menggunakan metode tf.idf. Metode tf.idf merupakan salah satu metode pembobotan yang banyak digunakan dalam vector space model. Metode tf.idf menghitung bobot dari masing-masing komponen vektor (masing-masing kata yang ada) dari tiap masingmasing dokumen (Soucy & Mineau, 25). Tahap pertama dalam melakukan pembobotan kata adalah dengan menghitung frekuensi kemunculan suatu kata atau yang dikenal dengan sebutan tf. Semakin sering suatu kata muncul dalam dokumen maka kata ini dapat dikatakan cukup penting dalam dokumen ini. Terdapat modifikasi dari tf yang menggunakan logaritma dari frekuensi kemunculan kata untuk menghitung nilai bobot tf sebagai berikut: wf t,d = { + log tf t,d jika tf t,d > () selainnya dimana t menandakan posisi kata dan d menandakan dokumen ke berapa. Tahap selanjutnya adalah menghitung nilai idf. Nilai idf menghitung seberapa tidak sering suatu kata muncul dalam koleksi keseluruhan dokumen. Sehingga kata sering muncul dalam dokumen dianggap tidak merepresentasikan dokumen, sebaliknya kata yang jarang muncul dianggap paling relevan terhadap dokumen. Nilai idf dapat diperoleh dengan cara sebagai berikut: idf t log N / df t (2) dimana t menandakan posisi kata dan N

4 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3942 merupakan jumlah dokumen. Karena nilai tf telah dilakukan modifikasi menjadi wf maka penyebutan tf.idf dapat diubah menjadi wf.idf (Manning, Raghavan, & Schutze, 29). Sehingga wf.idf dapat diperoleh dengan mengalikan nilai wf dan idf. Nilai wf.idf dapat dinormalisasi dengan cara sebagai berikut: wf. idf t, d wf. idf (3) t, d n t wf. idf 2 t, d dimana t menandakan posisi kata dan d menandakan dokumen ke berapa Improved K-Means Dalam beberapa pendekatan untuk mengoptimasi k-means, pemilihan centroid awal dilakukan dengan mengambil nilai jarak terjauh atau yang memiliki nilai densitas terbesar antar objek data. Akan tetapi jika di dalam dataset terdapat data yang kotor atau terisolasi maka terdapat kemungkinan data ini digunakan sebagai centroid awal. Oleh karena itu dalam melakukan pemilihan centroid awal dapat dilakukan dengan menggabungkan metode optimasi jarak dan densitas untuk memperoleh centroid awal terbaik (Xiong, et al., 26). Langkah-langkah dari algoritme improved k-means yang merupakan kombinasi antara metode optimasi jarak dan densitas dijelaskan sebagai berikut: Input: dataset dokumen D = {d,d 2,...,d n} dan k Output: k klaster. Hitung jarak antara setiap pasangan dua objek data yang berada dalam dataset D menggunakan Euclidean Distance. d ( xi, x j ) ( xi x j) ( xi2 x j2 )... ( xim x jm ) (4) x x, x,..., x dan x x, x,..., x ) ( i i2 im dimana ) i j ( j j2 im merupakan dua m dimensi objek data. 2. Hitung rata-rata jarak. MeanDist n x d ( x i, x j ) (5) C2 dimana C merupakan kombinasi pasangan jarak. 3. Hitung nilai parameter densitas seluruh objek data yang berada dalam dataset D. n Dens( x ) u( MeanDist d( x, x )) (6) i j dimana u(z) merupakan sebuah fungsi bernilai jika z lebih besar dari dan bernilai jika sebaliknya. 4. Hitung rata-rata nilai parameter densitas i j dataset D. 5. Dengan menggunakan rata-rata densitas, tentukan objek data yang terisolasi dan hapus data ini dari D sehingga menghasilkan koleksi A yang memiliki nilai parameter densitas tertinggi. Dens( x i ) x MeanDens (D) (7) dimana α berada pada rentang - dalam menentukan data terisolasi. 6. Pilih objek data yang memiliki nilai parameter densitas tertinggi dari A sebagai nilai centroid awal klaster pertama, masukkan ke dalam koleksi B, dan hapus dari A 7. Dari koleksi A, pilih objek data yang memiliki jarak terjauh dari objek data yang berada dalam B sebagai nilai centroid awal klaster berikutnya, masukkan ke dalam B, dan hapus dari A 8. Ulangi langkah 7 hingga jumlah objek data k berada dalam koleksi B 9. Berdasarkan k centroid awal klaster, lakukan k-means untuk melakukan pengelompokan terhadap objek data 3. METODOLOGI Start Data dokumen teks Text pre-processing Vector space model Improved k-means Hasil pengelompokan End Gambar. Diagram Alir Metode Pengelompokan Dokumen J-PTIIK

5 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3943 Secara umum sistem dalam penelitian menghasilkan luaran berupa pengelompokan dokumen J-PTIIK. Sistem membutuhkan objek data berupa judul dan abstrak dokumen J-PTIIK yang diperoleh secara manual melalui web J- PTIIK pada j-ptiik.ub.ac.id. Jumlah objek data dokumen J-PTIIK yang diperoleh dari arsip J- PTIIK Vol No (27) hingga Vol No 2 (27) sebanyak 233 dokumen. Pada penelitian terdapat tiga proses yang dilakukan untuk mengelompokkan dokumen J- PTIIK. Proses pertama yang dilakukan adalah melakukan praproses dokumen J-PTIIK. Praproses dokumen J-PTIIK dilakukan untuk mengubah teks yang terdapat pada dokumen J- PTIIK menjadi bentuk kumpulan kata. Praproses dokumen J-PTIIK terdiri dari beberapa sub proses antara lain menghapus tag judul dan abstrak, menghapus tanda baca dan angka, melakukan case folding dan tokenisasi, menghapus stopword dan melakukan stemming Nazief & Adriani dengan library jsastrawi. Proses kedua yang dilakukan adalah membentuk vector space model untuk memodelkan kata hasil dari praproses dokumen J-PTIIK ke dalam bentuk vektor guna dilakukan pembobotan kata. Proses ini terdiri dari beberapa sub proses antara lain menghitung frekuensi kata pada dokumen J-PTIIK (tf), menghitung bobot tf (wf), menghitung idf, menghitung pembobotan kata wf.idf dan melakukan normalisasi nilai wf.idf. Proses ketiga yang dilakukan adalah mengelompokkan dokumen J-PTIIK dengan menggunakan metode improved k-means. Pengelompokan dokumen J-PTIIK dilakukan menggunakan hasil normalisasi nilai wf.idf. Diagram alir sistem pengelompokan dokumen J- PTIIK dapat dilihat pada Gambar. 4. PENGUJIAN DAN ANALISIS Pengujian dalam penelitian dilakukan dengan menggunakan silhouette coefficient dan purity. Pengujian dilakukan dalam beberapa skenario antara lain pengaruh jumlah klaster, pengaruh jumlah data dan perbandingan metode improved k-means dan k-means. 4.. Pengaruh Pengujian ini dilakukan untuk mengetahui apakah jumlah klaster dalam melakukan pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette coefficient dan purity yang bertambah tinggi atau rendah. Jumlah data yang digunakan dalam melakukan pengujian ini adalah sebanyak 233 dokumen. Pada silhouette coefficient, pengujian dilakukan untuk mengetahui kualitas hasil dari pengelompokan dokumen J-PTIIK. Pengujian dilakukan pada nilai k = 2 hingga nilai k = 25 dengan α =.5 untuk memperoleh silhouette coefficient optimal. Hasil pengujian pengaruh jumlah klaster terhadap silhouette coefficient dapat dilihat pada Gambar 2. Pada pengujian silhouette coefficient juga terdapat pengujian dengan jumlah klaster mencapai jumlah dokumen J-PTIIK dengan densitas tertinggi. Jumlah klaster yang dapat digunakan pada α =.5 adalah sebanyak 224. Pengujian dilakukan pada jumlah klaster 2, 3, 5, 8, 3, 2, 34, 55, 89, 44 dan 224. Hasil pengujian silhouette coefficient dengan jumlah klaster sebanyak jumlah dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 3. Berdasarkan Gambar 2 dan Gambar 3, nilai silhouette coefficient mengalami peningkatan jika jumlah klaster terus bertambah. Akan tetapi pada beberapa jumlah klaster tertentu, nilai silhouette coefficient mengalami penurunan yang cukup signifikan. Nilai silhouette coefficient yang tinggi menunjukkan bahwa nilai terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda cukup besar. Sementara silhouette coefficient yang rendah menunjukkan bahwa nilai terkecil rata-rata jarak suatu dokumen J-PTIIK dengan semua dokumen J-PTIIK lain yang berada pada klaster berbeda lebih besar. Hasil pengujian menunjukkan nilai silhouette coefficient optimal diperoleh pada saat k = 9 dengan nilai sebesar Gambar 2. Hasil Pengujian Pengaruh Terhadap Silhouette Coefficient

6 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Gambar 3. Hasil Pengujian Silhouette Coefficient dengan Sebanyak Jumlah Dokumen J-PTIIK dengan Densitas Tertinggi Gambar 4. Hasil Pengujian Pengaruh Terhadap Purity Gambar 5. Hasil Pengujian Purity dengan Jumlah Klaster Sebanyak Jumlah Dokumen J-PTIIK dengan Densitas Tertinggi Pada purity, pengujian membutuhkan label dokumen J-PTIIK yang dilakukan secara manual oleh penulis. Pemberian label dilakukan berdasarkan keminatan yang menghasilkan label antara lain RPL, KC, JKI, MG, RB, SC, JKT dan SI. Pengujian dilakukan pada nilai k = 2 hingga nilai k = 25 dengan α =.5 untuk memperoleh purity optimal. Hasil pengujian pengaruh jumlah klaster terhadap purity dapat dilihat pada Gambar 4. Pada pengujian purity juga terdapat pengujian dengan jumlah klaster mencapai jumlah dokumen J-PTIIK dengan densitas tertinggi. Jumlah klaster yang dapat digunakan pada α =.5 adalah sebanyak 224. Pengujian dilakukan pada jumlah klaster 2, 3, 5, 8, 3, 2, 34, 55, 89, 44 dan 224. Hasil pengujian purity dengan jumlah klaster sebanyak jumlah dokumen J-PTIIK dengan densitas tertinggi dapat dilihat pada Gambar 5. Berdasarkan Gambar 4 dan Gambar 5, nilai purity terus mengalami peningkatan seiring dengan bertambahnya jumlah klaster. Hal ini menunjukkan bahwa pada saat jumlah klaster semakin besar, jumlah label terbanyak pada tiap klaster tentu juga akan semakin besar sehingga menghasilkan purity yang terus meningkat. Hasil pengujian menunjukkan nilai purity optimal diperoleh pada saat k = 23 dengan nilai sebesar Pengaruh Jumlah Data Pengujian ini dilakukan untuk mengetahui apakah jumlah data dalam melakukan pengelompokan dokumen J-PTIIK berpengaruh terhadap menghasilkan nilai silhouette coefficient dan purity yang bertambah tinggi atau rendah. Jumlah data yang digunakan dalam melakukan pengujian ini adalah sebanyak 5,, 5, 2 dan 233 dokumen. Jumlah klaster yang digunakan adalah 9 dan 23 dengan α =.5, sebab pada nilai ini diperoleh silhouette coefficient dan purity optimal. Hasil pengujian pengaruh jumlah data terhadap silhouette coefficient dapat dilihat pada Gambar 6 dan purity dapat dilihat pada Gambar 7. Berdasarkan Gambar 6, pada saat data berjumlah 5 dokumen J-PTIIK memiliki nilai silhouette coefficient tertinggi. Hal ini disebabkan karena jumlah data yang sedikit dikelompokkan dengan jumlah klaster mendekati setengah dari jumlah data yakni 9 dan 23. Sehingga nilai silhouette coefficient yang dihasilkan cukup tinggi. Sementara pada saat data berjumlah hingga 233 memiliki nilai silhouette coefficient yang hampir sama pada rentang nilai. hingga.3. Berdasarkan Gambar 7, penggunaan jumlah data yang semakin besar menyebabkan nilai purity yang dihasilkan semakin kecil. Hal ini menunjukkan pada saat jumlah data semakin besar, jumlah label terbanyak pada tiap klaster tentu juga akan semakin kecil sehingga menghasilkan purity yang terus menurun. Hal ini dapat dilihat pada nilai k = 9 dengan jumlah data 5 memiliki nilai purity sebesar.82, sementara pada jumlah data 233 memiliki nilai purity sebesar

7 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer Jumlah Data Gambar 6. Hasil Pengujian Pengaruh Jumlah Data Terhadap Silhouette Coefficient k = 9 k = 23 Jumlah Data Gambar 7. Hasil Pengujian Pengaruh Jumlah Data Terhadap Purity 4.3. Perbandingan Metode Improved K-Means dan K-Means Perbandingan pengujian dalam penelitian dilakukan untuk mengetahui apakah metode improved k-means memiliki nilai silhouette coefficient dan purity yang lebih baik bila dibandingkan dengan metode k-means. Sebab pemilihan centroid awal klaster dalam metode k- means dilakukan secara acak, sehingga dapat menghasilkan nilai silhouette coefficient dan purity yang selalu berbeda ketika dilakukan pengelompokan. Hal yang berbeda jika dengan menggunakan metode improved k-means dimana pemilihan centroid awal yang dihasilkan selalu tetap K-Means Improved K-Means k = 9 k = Gambar 8. Perbandingan Pengujian Silhouette Coefficient Metode Improved K-Means dan K- Means K-Means Improved K-Means Gambar 9. Perbandingan Pengujian Purity Metode Improved K-Means dan K-Means Dalam melakukan perbandingan ini, metode k-means dilakukan sebanyak 7 kali percobaan dalam melakukan pengelompokan dokumen pada nilai k = 2 hingga k = 25. Untuk menentukan nilai silhouette coefficient dan purity maka ditentukan dengan memperoleh nilai rata-rata silhouette coefficient dan purity dari 7 percobaan metode k-means yang dilakukan. Nilai rata-rata silhouette coefficient dan purity kemudian dibandingkan dengan nilai silhouette coefficient dan purity pada metode improved k-means untuk nilai k = 2 hingga k = 25 dan α =.5. Hasil perbandingan metode improved k-means dan k-means dapat dilihat pada Gambar 8 dan Gambar 9. Berdasarkan Gambar 8, penggunaan metode improved k-means dalam melakukan pengelompokan dokumen J-PTIIK memiliki kualitas hasil klaster yang lebih baik bila dibandingkan dengan penggunaan metode k- means. Metode improved k-means memiliki nilai rata-rata silhouette coefficient pada k = 2 hingga k = 25 sebesar, Sedangkan metode k-means hanya memiliki nilai rata-rata silhouette coefficient sebesar, Hal ini disebabkan oleh pemilihan centroid awal klaster dalam metode improved k-means dilakukan secara terstruktur melalui algoritme pemilihan centroid. Sehingga setiap kali pengelompokan dokumen J-PTIIK dilakukan dengan menggunakan metode improved k-means selalu menghasilkan klaster yang sama. Hal berbeda terjadi ketika pengelompokan dokumen J-PTIIK menggunakan metode k-means, maka pengelompokan menghasilkan klaster yang berbeda setiap kali pengelompokan dokumen J- PTIIK dilakukan. Hasil klaster yang berbeda ini tentu berpengaruh terhadap nilai rata-rata silhouette coefficient ketujuh percobaan pada metode k-means. Nilai yang dihasilkan memiliki nilai silhouette coefficient yang cenderung lebih kecil bila dibandingkan penggunaan metode

8 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3946 improved k-means. Pada Gambar 9, penggunaan metode improved k-means dalam melakukan pengelompokan dokumen memiliki nilai purity yang lebih baik pada saat nilai k = 7 hingga k = 25 bila dibandingkan dengan penggunaan metode k-means. Tetapi secara keseluruhan, metode improved k-means memiliki nilai ratarata purity yang lebih buruk bila dibandingkan metode k-means. Metode improved k-means hanya memiliki nilai rata-rata purity pada k = 2 hingga k = 25 sebesar, Sedangkan metode k-means memiliki nilai rata-rata purity sebesar, Melalui grafik perbandingan ini juga dapat disimpulkan bahwa baik metode improved k-means ataupun k-means memiliki nilai purity yang terus bertambah baik pada saat nilai k atau jumlah klaster terus bertambah. 5. HASIL PEMBERIAN LABEL KLASTER Pada proses terakhir pengelompokan dokumen J-PTIIK dilakukan pemberian label secara manual terhadap hasil pengelompokan dokumen J-PTIIK, dimana pemberian label dilakukan berdasarkan topik jurnal yang ada pada tiap klaster. Pemberian label berdasarkan topik jurnal pada tiap klaster diperoleh dengan cara melihat topik jurnal yang terdapat pada dokumen yang menjadi centroid akhir dari proses pengelompokan dokumen J-PTIIK. Hasil pemberian label berdasarkan topik jurnal secara manual dilakukan pada saat jumlah klaster bernilai 9, sebab nilai ini merupakan salah satu jumlah klaster yang optimal. Hasil pemberian label secara manual dapat dilihat pada Tabel. Tabel. Hasil Pemberian Label Klaster Klaster Label Berdasarkan Topik Jurnal Klasifikasi KNN 2 Mixed Reality 3 Pengelompokan Fuzzy 4 Genetika 5 Sistem Pendukung Keputusan 6 Sistem Rekomendasi 7 Genetika 8 Particle Swarm Optimization 9 Profile Matching Optimasi Genetika Citra Digital 2 Sistem Online 3 Analisis Structural Equation Modeling 4 Optimasi Rute 5 Internet of Things 6 Perancangan Alat 7 Text Mining 8 Evaluasi QEF 9 Analisis Wireless Sensor Network 6. KESIMPULAN Metode improved k-means dalam penelitian ini dapat digunakan untuk mengelompokkan dokumen J-PTIIK. Adapun tahap dalam melakukan pengelompokan dokumen J-PTIIK dimulai dari melakukan praproses teks dokumen J-PTIIK, melakukan pembobotan kata (vector space model), dan melakukan pengelompokan dokumen J-PTIIK dengan menggunakan metode improved k-means. Berdasarkan pengujian yang dilakukan, metode improved k-means memiliki nilai silhouette coefficient optimal sebesar pada saat k = 9 dan α =.5. Nilai purity optimal diperoleh pada saat k = 23 dan α =.5 dengan nilai sebesar Hasil pengujian menunjukkan jumlah klaster mempengaruhi nilai silhouette coefficient dan purity. Semakin banyak jumlah klaster yang digunakan, maka nilai silhouette coefficient dan purity akan meningkat. Tetapi pada penggunaan jumlah klaster tertentu dalam mengelompokkan dokumen J-PTIIK mempengaruhi penurunan nilai silhouette coefficient. Penggunaan jumlah data yang berbeda juga mempengaruhi nilai silhouette coefficient dan purity. Nilai yang dihasilkan cenderung mengalami penurunan seiring bertambahnya jumlah data. Penggunaan metode improved k- means juga memiliki nilai silhouette coefficient yang lebih baik bila dibandingkan dengan penggunaan metode k-means, dengan nilai ratarata silhouette coefficient pada improved k- means sebesar, dan k-means sebesar, Sementara metode improved k-means memiliki nilai purity lebih buruk bila dibandingkan dengan penggunaan metode k-means, dengan nilai rata-rata purity pada improved k-means sebesar, dan k-means sebesar, Pada penelitian berikutnya, metode pemilihan centroid awal klaster dapat menggunakan metode improved k-means yang lain atau metode pemilihan centroid yang lain. Pada proses akhir pengelompokan dokumen J- PTIIK juga dapat ditambahkan proses pemberian label klaster secara otomatis. 7. DAFTAR PUSTAKA Çakir, M.U. & Güldamlasroglu, S., 26. Text Mining Analysis in Turkish Language Using Big Data Tools. IEEE 4th Annual Computer Software and Applications Conference, pp

9 Jurnal Pengembangan Teknologi Informasi dan Ilmu Komputer 3947 Chayangkoon, N. & Srivihok, A., 26. Two Step Clustering Model for K-Means Algorithm. ICNCC 6, pp Kyoto: ACM. Dang, S. & Ahmad, P.H., 24. Text Mining: Techniques and its Application. International Journal of Engineering & Technology Innovations, Vol., Issue 4, pp Karimov, J. & Ozbayoglu, M., 25. Clustering Quality Improvement of k-means using a Hybrid Evoluationary Model. Procedia Computer Science 6, Publication 5, pp KM, S. & Reddy, T.H., 26. Text Mining: An Improvised Feature Based Model Approach. 2nd International Conference on Applied and Theoretical Computing and Communication Technology, pp Kumar, L. & Bhatia, P.K., 23. Text Mining: Concepts, Process and Applications. Journal of Global Research in Computer Science, Vol. 4, No. 3, pp Manning, C.D., Raghavan, P., & Schutze, H., 29. Scoring, term weighting and the vector space model. Poomagal, S. & Hamsapriya, T., 2. Optimized K-Means Clustering with Intelligent Initial Centroid Selection for Web Search Using URL and Tag Contents. Sogndal: ACM. Rahman, M.A., Islam, M.Z., & Bossomaier, T., 25. ModEx and Seed-Detective: Two novel techniques for high quality clustering by using good initial seeds in K-Means. Journal of King Saud University Computer and Information Science, pp Reddy, D. & Jana, P.K., 22. Initialization for K-means clustering using Voronoi diagram. Procedia Technology 4, pp Soucy, P. & Mineau, G.W., 25. Beyond TFIDF Weighting for Text Categorization in the Vector Space Model. Sutariya, A. & Amin, K., 23. An Improvement in K-means Clustering Algorithm. International Journal of Engineering Research & Technology, Vol. 2, Issue. Vijayarani, S., Ilamathi, J., & Nithya, 2. Preprocessing Techniques for Text Mining An Overview. International Journal of Computer Science & Communication Networks, Vol. 5, No., pp Xiong, C., Hua, Z., Lv, Ke. & Li, X., 26. An Improved K-means text clustering algorithm By Optimizing initial cluster centers. 7th International Conference on Cloud Computing and Big Data, pp

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN

EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik

Lebih terperinci

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi

Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming pada Preprocessing Twit Berbahasa Indonesia dengan Mengimplementasikan Algoritma Fonetik Soundex untuk Proses Klasifikasi Stemming in Indonesian Language Twit Preprocessing Implementing Phonetic

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia

Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Perbandingan Teknik Pengklasteran Dalam Visualisasi Data Teks Bahasa Indonesia Praditya Kurniawan 1, Ema Utami 2, Andi Sunyoto 3 1,2,3 STMIK AMIKOM Yogyakarta e-mail: * 1 pradityakurniawan@gmail.com, 2

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia

Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Perbandingan Silhouette Coeficient untuk Fitur Tfidf dan Perhitungan Kesamaan Pada Clustering Teks Bahasa Indonesia Zahratul fikrina 1), Teguh Bharata Adji 2),Hanung Adi Nugroho 3) Magister Teknologi Informasi

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL

PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL PERANCANGAN DAN IMPLEMENTASI SISTEM REKOMENDASI PENCARIAN BUKU PERPUSTAKAAN MENGGUNAKAN METODE VECTOR SPACE MODEL (Studi Kasus Perpustakaan Universitas Udayana) LEMBAR JUDUL KOMPETENSI RPL SKRIPSI NI MADE

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah

Bab 1 PENDAHULUAN. 1.1 Latar Belakang Masalah Bab 1 PENDAHULUAN 1.1 Latar Belakang Masalah Semakin hari semakin banyak inovasi, perkembangan, dan temuan-temuan yang terkait dengan bidang Teknologi Informasi dan Komputer. Hal ini menyebabkan semakin

Lebih terperinci

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors

Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Perancangan Sistem Pembagian Kelas Kuliah Mahasiswa dengan Kombinasi Metode K-Means dan K-Nearest Neighbors Gede Aditra

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS

INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS i TESIS INTEGRASI PEMBOBOTAN TF IDF PADA METODE K-MEANS UNTUK CLUSTERING DOKUMEN TEKS DEDDY WIJAYA SULIANTORO No. Mhs. : 105301466/PS/MTF PROGRAM STUDI MAGISTER TEKNIK INFORMATIKA PROGRAM PASCA SARJANA

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 ANALISA PERBANDINGAN METODE HIERARCHICAL CLUSTERING, K-MEANS DAN GABUNGAN KEDUANYA DALAM MEMBENTUK CLUSTER DATA (STUDI KASUS : PROBLEM KERJA PRAKTEK JURUSAN

Lebih terperinci

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia

Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Penerapan Algoritma Genetika pada Peringkasan Teks Dokumen Bahasa Indonesia Aristoteles Jurusan Ilmu Komputer FMIPA Universitas Lampung aristoteles@unila.ac.id Abstrak.Tujuan penelitian ini adalah meringkas

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY

PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Vol. 4, No. 2 Desember 2014 ISSN 2088-2130 PERANCANGAN DAN PEMBUATAN APLIKASI PENCARIAN INFORMASI BEASISWA DENGAN MENGGUNAKAN COSINE SIMILARITY Andry Kurniawan, Firdaus Solihin, Fika Hastarita Prodi Teknik

Lebih terperinci

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL

SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SISTEM REKOMENDASI DOSEN PEMBIMBING TUGAS AKHIR BERBASIS TEXT MINING MENGGUNAKAN VECTOR SPACE MODEL SKRIPSI Disusun Sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Komputer pada Departemen Ilmu

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Salah satu faktor penting penunjang globalisasi ialah internet. Semakin majunya teknologi internet menyebabkan banyaknya pengembang perangkat lunak membuat berbagai

Lebih terperinci

UKDW BAB I PENDAHULUAN

UKDW BAB I PENDAHULUAN BAB I PENDAHULUAN 1.1 Latar Belakang Dalam dunia bisnis pada jaman sekarang, para pelaku bisnis senantiasa selalu berusaha mengembangkan cara-cara untuk dapat mengembangkan usaha mereka dan memperhatikan

Lebih terperinci

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan

RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan RANCANG BANGUN SISTEM TEMU KEMBALI INFORMASI ABSTRAK TUGAS AKHIR MAHASISWA PRODI TEKNIK INFORMATIKA UNSOED Oleh : Lasmedi Afuan Prodi Teknik Informatika, Fakultas Sains dan Teknik, Universitas Jenderal

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

1 BAB I PENDAHULUAN. 1.1 Latar Belakang

1 BAB I PENDAHULUAN. 1.1 Latar Belakang 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembangan infrastruktur teknologi informasi dan penggunaannya berdampak luas dalam bagaimana manusia menjalani hidupnya. Salah satunya adalah dalam memperoleh

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang 1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal

PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM. Jurnal PERINGKASAN TEKS BAHASA INDONESIA MENGGUNAKAN MODIFIED DISCRETE DIFFERENTIAL EVOLUTION ALGORITHM Jurnal Diajukan kepada Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta untuk

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Perkembangan ilmu pengetahuan yang pesat dewasa ini telah mendorong permintaan akan kebutuhan informasi ilmu pengetahuan itu sendiri. Cara pemenuhan kebutuhan

Lebih terperinci

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521

JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: A-521 JURNAL TEKNIK ITS Vol. 1, (Sept, 2012) ISSN: 2301-9271 A-521 Analisa Perbandingan Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan

Lebih terperinci

HASIL DAN PEMBAHASAN. Praproses

HASIL DAN PEMBAHASAN. Praproses 5 4 MySQL sebagai database. 5 Mozilla Firefox sebagai web browser. 6 Microsoft Excel untuk perhitungan hasil penelitian dan pembuatan grafik. Perangkat keras: 1 Prosesor Intel Core i3. 2 RAM 2 GB. 3 Harddisk

Lebih terperinci

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430

JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: ( Print) A-430 JURNAL TEKNIK ITS Vol. 6, No. 2, (2017) ISSN: 2337-3539 (2301-9271 Print) A-430 VISUALISASI SIMILARITAS TOPIK PENELITIAN DENGAN PENDEKATAN KARTOGRAFI MENGGUNAKAN SELF- ORGANIZING MAPS (SOM) Budi Pangestu,

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Buku merupakan media informasi yang memiliki peran penting dalam perkembangan ilmu pengetahuan, karena dengan buku kita dapat memperoleh banyak informasi, pengetahuan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi

Lebih terperinci

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER

INFORMATION RETRIEVAL SYSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER INFORMATION RETRIEVAL SSTEM PADA PENCARIAN FILE DOKUMEN BERBASIS TEKS DENGAN METODE VECTOR SPACE MODEL DAN ALGORITMA ECS STEMMER Muhammad asirzain 1), Suswati 2) 1,2 Teknik Informatika, Fakultas Teknik,

Lebih terperinci

BAB III ANALISA DAN PERANCANGAN SISTEM

BAB III ANALISA DAN PERANCANGAN SISTEM BAB III ANALISA DAN PERANCANGAN SISTEM 3.1 Analisa Masalah Pemilihan dosen pembimbing Tugas Akhir pada jurusan Teknik Informatika Universitas Muhammadiyah Malang dilakukan mahasiswa secara mandiri, hal

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity

Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Konferensi Nasional Sistem & Informatika 2017 STMIK STIKOM Bali, 10 Agustus 2017 Pemodelan Penilaian Essay Otomatis Secara Realtime Menggunakan Kombinasi Text Stemming Dan Cosine Similarity Komang Rinartha

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR Achmad Thoriq B, Nelly Indriani W Abstract News aggregator is one type of aggregator system (collector) which collects

Lebih terperinci

Perbandingan Metode Single Linkage dan Fuzzy C Means Untuk Pengelompokkan Trafik Internet

Perbandingan Metode Single Linkage dan Fuzzy C Means Untuk Pengelompokkan Trafik Internet Perbandingan Metode Single dan Fuzzy C Means ntuk Pengelompokkan Trafik Internet Auliya Burhanuddin 1, Ema tami, Eko Pramono 3 1 Program Studi Teknik Informastika, Fakultas Teknik, niversitas Muhammadiyah

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan sistematika tahapan yang dilaksanakan selama proses pembuatan tugas akhir. Secara garis besar metodologi penelitian tugas akhir ini dapat dilihat

Lebih terperinci

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient

Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Jurnal Transistor Elektro dan Informatika (TRANSISTOR EI) Vol. 2, No. 1 1 Sistem Rekomendasi Hasil Pencarian Artikel Menggunakan Metode Jaccard s Coefficient Muhammad Fadelillah, Imam Much Ibnu Subroto,

Lebih terperinci

Penerapan Algoritma K-Means untuk Clustering

Penerapan Algoritma K-Means untuk Clustering Seminar Perkembangan dan Hasil Penelitian Ilmu Komputer (SPHP-ILKOM) 71 Penerapan Algoritma K-Means untuk ing Dokumen E-Jurnal STMIK GI MDP Ernie Kurniawan* 1, Maria Fransiska 2, Tinaliah 3, Rachmansyah

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen

Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Perbandingan Algoritma Pengelompokan Non-Hierarki untuk Dataset Dokumen Dyah Herawatie Prodi Sistem Informasi Fakultas Sains dan Teknologi Universitas Airlangga Surabaya, Indonesia dy4h_h3r4@yahoo.com

Lebih terperinci

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha

ABSTRAK. Kata kunci : Information Retrieval system, Generalized Vector Space Model. Universitas Kristen Maranatha ABSTRAK Information retrieval (IR) system adalah sistem yang secara otomatis melakukan pencarian atau penemuan kembali informasi yang relevan terhadap kebutuhan pengguna. Kebutuhan pengguna, diekspresikan

Lebih terperinci

SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA

SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA Kamil Malik Jurusan Teknik Informatika STT Nurul Jadid Paiton nomor1001@gmail.com Andi Hutami Endang Jurusan Teknik Informatika

Lebih terperinci

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA

EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA EFISIENSI PHRASE SUFFIX TREE DENGAN SINGLE PASS CLUSTERING UNTUK PENGELOMPOKAN DOKUMEN WEB BERBAHASA INDONESIA Desmin Tuwohingide 1, Mika Parwita 2, Agus Zainal Arifin 3, Diana Purwitasari 4 1,2,3,4 Teknik

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR

IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR IMPLEMENTASI ALGORITMA RABIN KARP UNTUK REKOMENDASI JUDUL BERITA INDONESIA TUGAS AKHIR Sebagai Persyaratan Guna Meraih Gelar Sarjana Strata 1 Teknik Informatika Universitas Muhammadiyah Malang Oleh: Adika

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis

BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah 1.2 Hipotesis BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Setiap matakuliah memiliki silabus perkuliahan yang berisi materi-materi mengenai matakuliah tersebut. Silabus disusun berdasarkan buku-buku referensi utama

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

BAB III Landasan Teori

BAB III Landasan Teori BAB III Landasan Teori 3.1 Sistem Rekomendasi Sistem rekomendasi merupakan suatu aplikasi untuk menyediakan dan merekomendasikan suatu item dalam membuat suatu keputusan yang diinginkan oleh pengguna (Ungkawa,

Lebih terperinci

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti:

HASIL DAN PEMBAHASAN. 4. Menghitung fungsi objektif pada iterasi ke-t, 5. Meng-update derajat keanggotaan. 6. Mengecek kondisi berhenti: 2. v kj merupakan centroid term ke-j terhadap cluster ke-k 3. μ ik merupakan derajat keanggotaan dokumen ke-i terhadap cluster ke-k 4. i adalah indeks dokumen 5. j adalah indeks term 6. k adalah indeks

Lebih terperinci

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA

PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA PENERAPAN ALGORITMA PARTITIONING AROUND MEDOIDS (PAM) CLUSTERING UNTUK MELIHAT GAMBARAN UMUM KEMAMPUAN AKADEMIK MAHASISWA 1 Yulison Herry Chrisnanto, 2 Gunawan Abdillah 1,2 Jurusan Informatika Fakultas

Lebih terperinci

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT.

HERU SUSANTO Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. HERU SUSANTO 2209 105 030 Dosen Pembimbing : 1. Dr. Surya Sumpeno, ST., M.Sc. 2. Reza Fuad Rachmadi, ST., MT. LATAR BELAKANG Peran media jejaring sosial pada perkembangan teknologi komunikasi dan informasi;

Lebih terperinci

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011

STMIK GI MDP. Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 STMIK GI MDP Program Studi Teknik Informatika Skripsi Sarjana Komputer Semester Ganjil Tahun 20010/2011 PENERAPAN METODE CLUSTERING HIRARKI AGGLOMERATIVE UNTUK KATEGORISASI DOKUMEN PADA WEBSITE SMA NEGERI

Lebih terperinci

BAB 2 TINJAUAN PUSTAKA

BAB 2 TINJAUAN PUSTAKA BAB 2 TINJAUAN PUSTAKA Pada tinjauan pustaka ini akan membahas tentang penelitian berita yang menggunakan Text Mining, metode TF-IDF, dan. Yang mana penelitian ini akan mengulas secara lengkap tentang

Lebih terperinci

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering

Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Analisis dan Implementasi Graph Clustering pada Berita Digital Menggunakan Algoritma Star Clustering Aufa Bil Ahdi P 1, Kemas Rahmat Saleh W, S.T., M.Eng 2, Anisa Herdiani, S.T., M.T 3 1.2.3 Teknik Informatika,

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA Pada bab ini menjelaskan topik taksonomi yang merupakan pengorganisasian informasi yang penting karena merupakan dasar dalam memahami suatu informasi. Taksonomi membantu memahami

Lebih terperinci

BAB 1 PENDAHULUAN UKDW

BAB 1 PENDAHULUAN UKDW BAB 1 PENDAHULUAN 1.1 Latar Belakang Masalah Saat ini sudah banyak sistem klasifikasi yang diciptakan dalam rangka membantu pengguna dalam melakukan pengklasifikasian dokumen, baik dokumen yang berbentuk

Lebih terperinci

1.5 Metode Penelitian

1.5 Metode Penelitian BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dalam perkembangan teknologi internet yang semakin maju ini kita dapat mengakses dokumen, buku dan majalah mulai dari bahasa asing sampai bahasa daerah yang

Lebih terperinci

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen

3 METODE. Implementasi Document Index Graph. Penetapan nilai jarak intercluster. Penetapan nilai jarak intracluster. Stemming Penetapan jumlah dokumen 3 METODE Metode penelitian metafile penyusun struktur digraf menggunakan algoritme Document Index Graph (DIG) terdiri atas beberapa tahapan yaitu tahap analisis masalah dan studi literatur dari penelitian

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M

(M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M (M.3) CLUSTERING PENGGUNA WEBSITE BPS MENGGUNAKAN ALGORITMA SEQUENCE DBSCAN (SEQDBSCAN) DENGAN JARAK SIMILARITAS S 3 M 1Toza Sathia Utiayarsih, 2 Yadi Suprijadi, 3 Bernik Maskun 1Mahasiswa Magister Statistika

Lebih terperinci

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS

PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS PENGGUNAAN FITUR ABSTRAKSI DAN CATATAN PUBLIKASI PENULIS UNTUK KLASIFIKASI ARTIKEL ILMIAH DENGAN METADATA YANG TERBATAS Halimatus Sa dyah, Nurissaidah Ulinnuha Jurusan Teknik Informatika, Fakultas Teknologi

Lebih terperinci

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK

TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK F.13 TEKNIK VECTOR SPACE MODEL (VSM) DALAM PENENTUAN PENANGANAN DAMPAK GAME ONLINE PADA ANAK Bania Amburika 1*,Yulison Herry Chrisnanto 1, Wisnu Uriawan 2 1 Jurusan Informatika, Fakultas MIPA, Universitas

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

BAB I PENDAHULUAN I.1. Latar Belakang Masalah

BAB I PENDAHULUAN I.1. Latar Belakang Masalah BAB I PENDAHULUAN I.1. Latar Belakang Masalah Dalam era teknologi seperti saat ini, informasi berupa teks sudah tidak lagi selalu tersimpan dalam media cetak seperti kertas. Orang sudah mulai cenderung

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI

KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI TUGAS AKHIR CI1599 KLASTERISASI PADA SUBRUANG DENGAN ALGORITMA PEMBOBOTAN ENTROPI PADA K-MEANS PADA SPARSE DATA BERDIMENSI TINGGI AHMAD DENI DWI PRANOTO NRP 5103 100 015 Dosen Pembimbing I Rully Soelaiman,

Lebih terperinci

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak

SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF. Abstrak SISTEM PENCARIAN PASAL-PASAL PADA KITAB UNDANG-UNDANG HUKUM PIDANA DENGAN MENGGUNAKAN METODE TF-IDF Muh. Alfarisi Ali¹, Moh. Hidayat Koniyo², Abd. Aziz Bouty³ ¹Mahasiswa Teknik Informatika Universitas

Lebih terperinci

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia

Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia Prosiding Statistika ISSN: 2460-6456 Data Mining Menggunakan Metode K-Means Klaster untuk Mengelompokkan Pemegang Polis Asuransi Kendaraan Bermotor di Indonesia Supiyah, 2 Aceng Komarudin Mutaqin, 3 Teti

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

BAB IV ANALISA DAN PERANCANGAN

BAB IV ANALISA DAN PERANCANGAN BAB IV ANALISA DAN PERANCANGAN Pada bab ini akan dibahas mengenai analisa proses information retrieval dengan menggunakan cosine similarity dan analisa proses rekomendasi buku dengan menggunakan jaccard

Lebih terperinci

HASIL DAN PEMBAHASAN

HASIL DAN PEMBAHASAN 10 HASIL DAN PEMBAHASAN Pengumpulan Dokumen Tahapan awal yang dilakukan dalam penelitian adalah mengolah dokumen XML yang akan menjadi korpus. Terdapat 21578 dokumen berita yang terdiri atas 135 topik.

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BUKU PANDUAN MINAT STUDI MAHASISWA PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER 2012/2013

BUKU PANDUAN MINAT STUDI MAHASISWA PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER 2012/2013 BUKU PANDUAN MINAT STUDI MAHASISWA PRODI TEKNIK INFORMATIKA FAKULTAS ILMU KOMPUTER 2012/2013 Fakultas Ilmu Komputer Universitas Dian Nuswantoro Semarang 2012 1. Minat Studi Minat Studi Mahasiswa merupakan

Lebih terperinci

PENGELOMPOKAN KOLEKSI BUKU PERPUSTAKAAN BERDASARKAN LAMA PEMINJAMAN BUKU MENGGUNAKAN K-MEANS

PENGELOMPOKAN KOLEKSI BUKU PERPUSTAKAAN BERDASARKAN LAMA PEMINJAMAN BUKU MENGGUNAKAN K-MEANS PENGELOMPOKAN KOLEKSI BUKU PERPUSTAKAAN BERDASARKAN LAMA PEMINJAMAN BUKU MENGGUNAKAN K-MEANS SKRIPSI Diajukan untuk memenuhi salah satu syarat guna memperoleh gelar Sarjana Komputer (S.Kom.) Pada Program

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN berikut. Tahapan penelitian yang dilakukan dalam penelitian adalah sebagai Indentifikasi Masalah Merumuskan Masalah Study Literatur Perancangan : 1. Flat Teks 2. Database

Lebih terperinci