II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM.

Ukuran: px
Mulai penontonan dengan halaman:

Download "II TINJAUAN PUSTAKA. 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM."

Transkripsi

1 II TINJAUAN PUSTAKA Pada bab ini akan dibahas mengenai konsep knowledge management, klasifikasi dokumen, mencakup algoritma klasifikasi dan cluster dokumen secara umum, dan struktur dokumen. II.1 Knowledge Management Knowledge management (KM) menyediakan kerangka kerja untuk mengelola pengetahuan. KM terdiri atas empat komponen utama [6], yaitu: people; knowledge, business process, dan technology. People adalah komponen utama yang menerapkan KM, knowledge adalah komponen dasar yang dikelola dalam KM; dapat berupa informasi dan konten seperti dokumen teks, gambar, file audio dan video, konten web, dan sebagainya; business process merupakan landasan kebijakan, arah pelaksanaan KM, dan sebagainya, dan technology merupakan pendukung dalam penerapan KM. Secara garis besar proses pada aplikasi KM terdiri dari: 1. Acquiring, adalah proses akuisisi knowledge ke dalam aplikasi KM. 2. Storing, adalah proses menyimpan hasil akuisisi knowledge, knowledge direpresentasikan sesuai dengan representasi penyimpanan dalam storage. 3. Appraising, adalah proses penaksiran terhadap knowledge yang sudah di simpan untuk menjawab pertanyaan atau query. 4. Extracting, adalah proses pengambilan (retrieval) knowledge, yang kemudian akan di ekstrak untuk digunakan oleh pengguna. Proses extracting membutuhkan hasil proses appraising untuk menentukan knowledge yang sesuai dengan request pengguna. 5. Sharing, adalah proses dimana knowledge yang tersimpan dalam aplikasi KM di-share secara luas. Jumlah knowledge yang disimpan dalam aplikasi KM akan terus bertambah seiring waktu. Pertambahan jumlah knowledge tersebut mendorong munculnya kebutuhan terhadap suatu mekanisme pengorganisasian knowledge yang baik, dan II-1

2 yang dapat memfasilitasi pencarian dan pengambilan knowledge yang tepat dalam waktu yang cepat. Klasifikasi dokumen berkaitan erat dengan aktifitas pencarian dan pemanggilan kembali dokumen atau informasi. Gambar dibawah ini menjelaskan hubungan tersebut [7]: Gambar II.1. Document Retrieval Dalam proses retrieval dokumen, pengguna menentukan informasi yang dibutuhkan dan merepresentasikannya dalam bentuk query kepada sistem. Sistem kemudian menganalisis query dan mencari dokumen yang relevan dengan query pengguna pada tempat penyimpanan dokumen. Pengklasifikasian dokumen memungkinkan sistem menemukan dokumen dengan tingkat relevansi yang tinggi dalam waktu yang lebih cepat. II.2 Pengelompokkan Dokumen Pengelompokkan dokumen adalah proses mengelompokkan dokumen ke dalam satu atau beberapa kategori menurut isi dokumen. Tujuan utama pengelompokkan dokumen adalah untuk menyederhanakan proses dan akses terhadap informasi dan pengetahuan, mengatasi masalah yang disebabkan oleh ledakan informasi (information overload), dan untuk mendukung fungsi manajemen pengetahuan seperti pemanggilan kembali (retrieval), organisasi, visualisasi, pengembangan, dan pertukaran pengetahuan [3]. Pengelompokkan dokumen digunakan pada beberapa aplikasi seperti knowledge management, sistem temu-balik informasi (information retrieval), filtering, spam filtering, mail routing, pengontrolan II-2

3 berita, otomatisasi indeks artikel, otomatisasi katalog web, identifikasi tipe dokumen, dan sebagainya. Secara umum proses pengelompokkan dokumen digambarkan sebagai berikut: Gambar II.2. Gambaran Umum Proses Pengelompokkan Dokumen Untuk menggunakan algoritma klasifikasi, dokumen teks yang menyimpan informasi dalam bahasa alami manusia harus dipetakan ke dalam bentuk yang dapat dimengerti oleh algoritma klasifikasi, yaitu bentuk numerik; dijelaskan pada bagian II.2.1. II.2.1 Pra-pengolahan Dokumen Proses konversi kata dalam dokumen menjadi bentuk numerik disebut document preprocessing (pra-pengolahan dokumen). Selanjutnya, dokumen dikelompokkan ke dalam kelas-kelas yang sesuai dengan isi dokumen. Pra-pengolahan dokumen terdiri dari proses feature extraction, feature selection, dan document representation; seperti digambarkan pada gambar II.3. Gambar II.3. Pra-pengolahan Dokumen II-3

4 1. Feature Extraction Feature extraction bertujuan untuk menghasilkan kamus yang berisi daftar term atau kata yang terdapat pada dokumen. Fase ini dimulai dengan menguraikan isi dokumen menjadi daftar kata atau kamus, disebut juga parsing. Parsing didefinisikan sebagai proses mengidentifikasi token dalam teks atau dokumen. Selanjutnya dilakukan pengurangan dimensi kamus menggunakan metode stop word removal dan word stemming. Stop word removal adalah proses menghilangkan noise atau term yang tidak mempunyai makna semantik seperti kata sandang, angka, dan preposisi dari kamus. Setelah token teridentifikasi, sistem melakukan pengecekan term dengan daftar stop words yang sudah ditentukan. Jika term terdapat dalam daftar stop words, maka term tersebut akan dihapus. Pengecekan stop words dapat dilakukan menggunakan metode binary search atau algoritma hashing. Stemming adalah proses menghilangkan imbuhan (awalan dan akhiran) pada term, untuk mencari kata dasar (stem). Dokumen teks yang dikaji pada tesis ini adalah dokumen berbahasa Inggris. Terdapat tiga kelompok algoritma stemming untuk teks berbahasa Inggris, yaitu rule-based stemmer, dictinarybased stemmer, dan co-occurence based stemmer. Rule-based stemmer adalah algoritma yang melakukan stemming berdasarkan aturan-aturan tertentu. Dictionary-based stemmer adalah algoritma yang melakukan stemming dengan menghilangkan imbuhan kata, kemudian mencocokkan kata dasar yang ditemukan dengan kata yang terdapat pada dictionary (daftar kata dasar). Kata dasar yang diterima hanyalah kata yang termasuk dalam daftar dictionary, sehingga akurasi hasil proses stemming sangat ditentukan oleh akurasi dan kualitas dictionary. Co-occurence based stemmer melakukan stemming pada kata yang sering muncul pada dokumen yang sama dalam koleksi dokumen. 2. Feature Selection Feature Selection bertujuan untuk mengeliminasi term-term yang kurang berarti atau memberikan sedikit informasi. Indikator yang digunakan sebagai pengukur adalah term frequency (TF), inverse document frequency (IDF), dan kombinasi TF dan IDF (TF x IDF). Pada TF term yang paling sering muncul II-4

5 dalam dokumen adalah term yang mempunyai arti penting. IDF adalah jumlah dokumen dimana term ke-i muncul; menggunakan formula berikut: N idf log (1) df dimana N adalah total dokumen dalam koleksi, dan df adalah jumlah atau frekuensi dokumen yang mengandung term ke-i. TFxIDF menggabungkan pengukuran TF dan IDF menjadi satu variabel. Kata-kata yang mempunyai nilai tertinggi adalah kata yang paling berarti. N fd tf log (2) df dimana fd adalah bobot term ke-i pada dokumen d, tf adalah frekuensi kemunculan term ke-i pada dokumen d, N adalah total dokumen, dan df adalah jumlah atau frekuensi dokumen yang mengandung term ke-i Feature selection berguna untuk meningkatkan ke-efektifan klasifikasi dan kompleksitas komputasi. 3. Document Representation Document representation adalah langkah terakhir pada proses pra-pengolahan dokumen, yang direpresentasikan dalam bentuk fitur-fitur term yang dihasilkan dari langkah-langkah sebelumnya. Document representation untuk satu dokumen berbentuk vektor yang terdiri dari n elemen, dimana n adalah jumlah term. Untuk sekumpulan koleksi dokumen, document representation adalah matriks m x n, dimana m adalah adalah jumlah dokumen dan n adalah term. Elemen matriks a ij menyatakan frekuensi kemunculan term j pada dokumen i, dan direpresentasikan dengan bilangan biner. Nilai 1 dan 0 menyatakan term tertentu muncul atau tidak muncul pada dokumen. Hasil dari pra-pengolahan dokumen adalah daftar pasangan term dan frekuensi kemunculan term dalam dokumen, yang selanjutnya akan digunakan untuk mengklasifikasi dokumen. II-5

6 Pengelompokkan dokumen dapat dilakukan dengan dua pendekatan yaitu supervised learning atau klasifikasi dan unsupervised learning atau clustering. II.2.2 Klasifikasi Dokumen Klasifikasi dokumen mengelompokkan dokumen ke dalam kategori-kategori yang bersifat tetap (fixed) dan sudah ditentukan (predefined). Metode klasifikasi dokumen bersifat supervised learning, pengelompokkan dokumen diawali dengan proses pembelajaran dokumen yang dilakukan oleh supervisor untuk menentukan kategori dokumen. Dua pendekatan utama yang digunakan dalam klasifikasi dokumen, yaitu pendekatan berbasis aturan (rule-based approach) dan pembelajaran mesin (machine learning). Pada pendekatan berbasis aturan klasifikasi dilakukan secara manual, dimulai dengan pengelompokkan dokumen ke dalam kategori, dan menentukan aturan-aturan yang mendefinisikan kategori. Kelebihan pendekatan berbasis aturan adalah nilai relevansi dokumen tinggi terhadap query. Sedangkan kelemahannya adalah dibutuhkan tenaga kerja yang banyak, biaya yang mahal, dan waktu yang lama untuk mengelompokkan dokumen dalam jumlah banyak. Pada metode pembelajaran mesin aturan klasifikasi dokumen dibuat secara otomatis menggunakan informasi dari label teks yang sudah dikelompokkan terlebih dulu. Metode ini dapat mengatasi masalah jumlah dokumen yang banyak. Kekurangan metode ini adalah aturanaturan yang dihasilkan tidak seakurat aturan yang dibuat supervisor. Klasifikasi data, dalam tesis ini data adalah dokumen, terbagi menjadi dua langkah atau subproses, yaitu learning dan classification. Proses klasifikasi dapat dilihat pada gambar II.4. Pada subproses learning dikembangkan sebuah model yang menjelaskan konsep kelas. Setiap dokumen diasumsikan menjadi anggota pada satu kelas (predefined class), ditentukan oleh atribut label kelas (class label attribute) yang telah didefinisikan sebelumnya. Dokumen pelatihan dianalisis menggunakan algoritma klasifikasi untuk membangun model atau classifier, dalam bentuk aturan-aturan klasifikasi. II-6

7 Gambar II.4. Proses Klasifikasi Dokumen Pada subproses classification, model atau classifier yang dihasilkan pada subproses learning diuji menggunakan dokumen penguji, untuk mengestimasi akurasi aturan-aturan klasifikasi. Akurasi sebuah model adalah persentasi dokumen penguji yang diklasifikasikan dengan benar oleh model tersebut. Jika hasil estimasi akurasi dapat diterima atau memenuhi threshold tertentu, maka model dapat digunakan sebagai model siap pakai untuk mengklasifikasi dokumen baru yang belum memiliki label kelas. Kriteria yang digunakan untuk mengevaluasi algoritma klasifikasi adalah sebagai berikut [11]: 1. Predicitive accuracy. Algoritma klasifikasi harus mampu memprediksi label class dari data baru. 2. Speed. Berkaitan dengan kompleksitas komputasi atau waktu untuk membentuk dan menggunakan model atau classifier. 3. Robustness. Algoritma klasifikasi harus mampu memberikan prediksi yang tepat dan mengelompokkan data ke dalam kategori yang tepat. II-7

8 4. Scalability. Algoritma klasifikasi mampu menangani data dalam jumlah banyak. 5. Interpretability. Berkaitan dengan tingkat pemahaman yang disediakan oleh model atau classifier. Algoritma-algoritma dasar metode kategorisasi dokumen adalah decision tree, decision rules, k-nearest Neighbor, Naive Bayes, neural network, regressionbased, centroid-based, dan Support Vector Machine. 1. Decision Rules Decision rules mengelompokkan dokumen ke dalam kategori-kategori menurut aturan yang sudah ditetapkan. Setiap kategori mempunyai sekumpulan aturan yang menjelaskan profil kategori. Setiap aturan tunggal terdiri dari nama kategori dan daftar kata atau kamus. Kumpulan aturan merupakan gabungan aturan-aturan tunggal menggunakan operator logika OR. Tidak semua aturan dalam kumpulan aturan digunakan untuk mengelompokkan dokumen. Untuk menyederhanakan kumpulan aturan digunakan heuristic, tanpa mempengaruhi proses pengelompokkan. Kelebihan algoritma decision rule adalah setiap kategori mempunyai kamus lokal, sehingga memungkinkan untuk membedakan arti dari kata-kata yang homonim. Kekurangan algoritma decision rule adalah aturan-aturan dari semua kategori dapat dipakai dalam proses pengelompokkan dokumen sehingga menyulitkan untuk mengelompokkan dokumen secara eksplisit pada satu kategori. 2. Decision Tree Algoritma decision tree mengelompokkan dokumen ke dalam struktur berbentuk pohon dimana simpul menyatakan pertanyaan dan leaf menyatakan kategori dokumen. Pada setiap simpul terdapat atribut-atribut yang akan dibandingkan dengan dokumen, dan setiap cabang yang diturunkan dari simpul tersebut mewakili salah satu nilai atribut. Sebuah dokumen dikelompokkan mulai dari simpul akar, menguji dokumen terhadap atribut dari II-8

9 simpul tersebut, kemudian turun pada cabang yang cocok dengan nilai atribut. Proses ini diulang hingga mencapai kategori yang tepat. Kelebihan algoritma decision tree adalah struktur pohon mudah dimengerti dan diinterpretasikan, dan dokumen dikelompokkan berdasarkan struktur logika. Kekurangan algoritma ini adalah waktu yang lama untuk mengelompokkan secara manual, kesalahan klasifikasi pada level yang lebih tinggi mempengaruhi level dibawahnya, dan kemungkinan terjadi overfit tinggi. Overfit adalah kondisi dimana terdapat lebih dari satu pohon klasifikasi yang mungkin terbentuk. Overfit terjadi jika terdapat alternatif pohon lain yang dapat mengelompokkan dokumen dengan lebih baik. Dalam menggunakan algoritma decision tree juga perlu ditentukan maksimum kedalaman pohon, atau minimum jumlah simpul yang akan diobservasi untuk menghindari pembentukan pohon yang besar 3. k-nearest Neighbor (k-nn) Algoritma k-nearest neighbor mengelompokkan dokumen-dokumen yang berdekatan dikelompokkan ke dalam satu kelas. dokumen ditentukan dengan jarak Euclidean [11]. Kedekatan antara Algoritma ini dimulai dengan mencari atau menentukan k nearest neighbors dari dokumen yang akan diklasifikasi, menghitung atau membandingkan kesamaan antara dokumen dengan neighbors (kelas atau dokumen-dokumen dalam satu kelas), kemudian mengelompokkan dokumen ke dalam kelas yang paling sama menggunakan aturan k-nn sebagai berikut [9]: dimana d i, c j 0,1 c, simx j y x, c j simx, di yd i, c j bj d knn i y adalah klasifikasi untuk dokumen d i pada kategori d, i adalah kesamaan antara dokumen x dengan dokumen i b j adalah threshold untuk pengambilan keputusan. (3) d, dan Algoritma k-nn sederhana dan mudah diimplementasikan, serta dapat memberikan hasil yang baik dengan pemilihan fitur dan perhitungan bobot yang tepat. Dokumen yang memiliki lebih dari satu topik dapat II-9

10 dikelompokkan pada dua kategori yang berbeda. Kekurangan algoritma k-nn adalah k-nn menggunakan semua fitur atau term untuk mengukur kesamaan dokumen dengan k-nn yang menghasilkan ukuran kesamaan yang buruk dan dapat menyebabkan kesalahan klasifikasi. 4. Naive Bayes (NB) Naïve Bayes menggunakan gabungan probabilitas term dan kategori untuk memperkirakan probabilitas kategori sebuah dokumen. Metode NB mengasumsikan bahwa probabilitas term dalam dokumen tidak bergantung pada probabilitas term yang lain (word independence), sehingga kemunculan term tidak mempengaruhi term lain. Ada beberapa varian NB, yang umum digunakan adalah Multivariative Bernoulli dan Multinomial model. Beberapa studi membuktikan performansi multinomial model lebih tinggi dibanding varian NB lain [8, 9]. Untuk mengelompokkan dokumen d, Multinomial classifier memilih kelas c yang paling cocok dengan dokumen yang akan dikelompokkan. Estimasi probabilitas kelas p(c d) dihitung dengan aturan Bayes [8]: cpd pd p c pc d (4) Prior probability p(c) adalah frekuensi relatif dokumen pada kelas c. Conditional probability p(d c) adalah probabilitas dokumen d untuk kelas c yang dihitung dari probabilitas kemunculan term terhadap semua term dalam dokumen d dengan rumus sebagai berikut: p d d! f w, d c p w c (5) f w, d! wd wd F(w,d) menyatakan frekuensi kemunculan term w dalam dokumen d, adalah total frekuensi semua term dalam dokumen, atau panjang dokumen, dan koefisien multinomial wd d! menyatakan jumlah semua urutan term f w, d! yang mungkin. Probabilitas term pada kelas p (w c) menyatakan jumlah kemunculan term atau frekuensi term, d II-10

11 w' v c w' 1 f w, pw c v f, c (6) dimana f(w,c) adalah frekuensi kemunculan term pada kelas c. Untuk menghindari nilai probabilitas 0 ditambahkan 1 sebagai kemunculan term semu pada daftar kata v. Naïve Bayes digunakan pada pengelompokkan teks atau dokumen karena performansi yang baik, ukuran klasifikasi kecil, dan kompleksitas kecepatan linier. Kelemahan naïve Bayes adalah metode ini hanya memproses vektor fitur biner dan mengabaikan informasi yang relevan. 5. Neural Networks (NNet) Pengelompokkan dokumen menggunakan algoritma neural network terdiri dari dua pendekatan, yaitu perceptron dan backpropagation. Perceptron terdiri atas lapisan input dan output. Perceptron menggunakan vektor bernilai ril sebagai input, menghitung kombinasi linier input, kemudian memberikan output 1 jika nilai hasil lebih besar dari threshold yang ditentukan dan -1 jika sebaliknya [10]. Algoritma backpropagation, disebut juga feed-forward-nets, digunakan untuk multi-lapisan, terdiri dari lapisan input, lapisan output, dan lapisan tersembunyi (hidden layer). Kelebihan algoritma neural networks adalah fleksibilitas tinggi, dapat menangani noisy atau data yang bersifat kontradiksi dengan baik, dapat memahami logika yang tidak jelas. Kelemahan algoritma neural network adalah biaya komputasi yang sangat tinggi, sulit dimengerti oleh orang awam. 6. Regression-based Klasifikasi menggunakan dua matriks, yaitu matriks fitur sebagai matriks input, disebut sebagai matriks A, dan matriks output B yang mengindikasikan kategori dari dokumen pada matriks A. Matriks B terdiri dari m baris dan c kolom, dimana m adalah dokumen pada matriks A; sehingga jumlah baris matriks A dan B adalah sama, dan c adalah jumlah kategori. Tujuan metode ini adalah mencari matriks F yang mentransformasikan matriks A ke matriks B', sedemikian hingga B'=B. Kelebihan algoritma regression-based adalah pra-pengolahan pembentukan term, stop word removal dan word stemming, II-11

12 dapat dihindari tanpa mempengaruhi kualitas klasifikasi, dan dapat digunakan dengan mudah untuk satu kategori dan multi-kategori. 7. Centroid-based (CB) Algoritma centroid-based merepresentasikan dokumen dengan model ruang vektor (vector-space model). Setiap dokumen adalah vektor d dalam kumpulan term, disebut juga term-space, yang direpresentasikan oleh vektor term frequency (TF) sebagai [13]: d tf1, tf 2,..., tf tf n dimana tf i adalah frekuensi istilah ke-i dalam dokumen. Skema pembobotan yang paling sering digunakan adalah inverse document frequency (IDF). Bobot vektor dokumen direpresentasikan dengan vektor tf-idf; persamaan 2. Panjang halaman dokumen yang berbeda akan mempengaruhi hasil perhitungan kesamaan antar dokumen maupun kesamaan dokumen dengan kelas, dimana semakin panjang sebuah dokumen maka nilai pembobotan akan semakin tinggi. Untuk meminimalisasi pengaruh panjang dokumen yang berbeda, panjang setiap vektor dinormalisasi menjadi 1. Algoritma CB diawali dengan menghitung vektor centroid untuk setiap kelas pada training documents. Vektor centroid didefinisikan sebagai rata-rata bobot terms pada himpunan dokumen S, sebagai berikut: (7) 1 C S ds d (8) Untuk mengelompokkan dokumen baru, dilakukan penghitungan kesamaan antara vektor dokumen, d tfidf, dengan setiap vektor centroid, menggunakan fungsi cosine sebagai berikut: d C d C cos( d, C) (9) d C C Dokumen baru akan dikelompokkan pada vektor centroid yang paling sama, menggunakan aturan: II-12

13 arg max (cos( x, C j)) j1,..., k (10) Kelebihan algoritma CB adalah algoritma ini berjalan dengan baik (efektif), sederhana dan mudah diimplementasikan, kompleksitas komputasi pada fase learning linier terhadap jumlah dokumen, kompleksitas komputasi klasifikasi dokumen baru linier terhadap jumlah kelas [4, 11]. 8. Support Vector Machine (SVM) Algoritma SVM merepresentasikan dokumen sebagai vektor dan mencari batasan, disebut decision hyperplane, yang memisahkan dua kelompok vektor atau kelas. Kualitas decision hyperplane ditentukan oleh jarak antara dua hyperplane, disebut margin, yang paralel dengan decision hyperplane dan menyentuh objek terdekat dari setiap kelas, disebut support vector. Decision hyperplane yang terbaik mempunyai margin terlebar atau maksimum, dan bersinggungan dengan semua objek terdekat dari setiap kelas. SVM digambarkan pada gambar II.5. Hyperplane untuk ruang vektor dua dimensi linier dinyatakan dengan [8]: w. x b 0 (11) dimana x adalah vektor dokumen yang akan diklasifikasi, vektor bobot w dan konstanta bias b adalah parameter training data. Untuk himpunan training data D, dinyatakan dengan D y i, x i dan y i 1 menyatakan klasifikasi untuk x (+1 diklasifikan pada kelas positif dan -1 diklasifikasikan pada kelas negatif), SVM mencari w dan b yang memenuhi syarat sebagai berikut: w. x i b 1 untuk y i 1. x b 1 untuk y 1 w i i (12) Pada fase learning model dibangun menggunakan contoh positif dan negatif dari setiap kategori, kemudian menghitung batas antara kategori. Dokumen dikelompokkan dengan menghitung vektor dan menentukan partisi ruang dimana vektor berada. II-13

14 Gambar II.5. Support Vector Machine [8] Kelebihan SVM adalah hanya satu dot product pada dokumen baru yang harus dihitung sehingga pengelompokkan dokumen baru lebih cepat. Kelemahan SVM adalah sebuah dokumen dapat dikelompokkan pada beberapa kategori karena kesamaan dihitung per kategori. Kelebihan metode klasifikasi dokumen adalah akurasi klasifikasi yang baik dan menghasilkan dokumen dengan tingkat relevansi yang tinggi dengan query pengguna. Sedangkan kekurangan klasifikasi dokumen adalah biaya dan waktu yang dibutuhkan untuk mengelompokkan dokumen secara manual, struktur kategori yang bersifat predefined dan statis tidak menyediakan mekanisme untuk melakukan perubahan struktur [4]. Perubahan struktur kategori dapat terjadi jika ada beberapa kategori yang perlu digabung, atau muncul kategori baru. II Hierarchical Text Classification Algoritma-algoritma klasifikasi yang dibahas pada bagian II.2.2 melakukan pengklasifikasian dengan pendekatan flat classification. Pada pendekatan flat classification, kelas-kelas klasifikasi yang dihasilkan adalah kelas-kelas yang terpisah dan bersifat independen, yang tidak memiliki struktur yang menjelaskan hubungan antara kelas. Pulijala & Gauch [14] menjelaskan pendekatan hierarchical classification untuk mengklasifikasi dokumen. Hierarchical classification mengklasifikasi dokumen ke dalam kelas-kelas yang saling II-14

15 terhubung dalam bentuk struktur hirarki. Dengan pendekatan ini akurasi klasifikasi semakin baik dan pencarian dokumen menjadi lebih efisien. Ada dua metode hierarchical classification, yaitu pendekatan big-bang dan topdown level-based. Pada pendekatan big-bang, classifier mengklasifikasi dokumen dengan satu langkah. Pada top-down level-based, klasifikasi dilakukan pada setiap level pohon. Dari root pohon dokumen dibandingkan dengan setiap kelas pada level pertama, kemudian dokumen dikelompokkan pada kelas level pertama yang paling cocok. Selanjutnya, dokumen dibandingkan dengan setiap sub-kelas dari kelas tersebut. Proses ini terus berlanjut hingga dokumen mencapai leaf atau kelas pada level terbawah. Untuk membangun model classifier dapat menggunakan algoritma-algoritma klasifikasi yang telah ada. II Teknik Estimasi Akurasi Teknik-teknik dasar yang digunakan untuk mengestimasi akurasi model yang dihasilkan subproses learning adalah [11]: 1. Holdout Data atau dokumen dipartisi menjadi dua bagian, yaitu 70% dokumen dialokasikan sebagai training documents atau dokumen pelatihan dan 30% dokumen dialokasikan sebagai testing documents atau dokumen penguji. Dokumen pelatihan digunakan pada subproses learning, sedangkan dokumen penguji digunakan pada subproses klasifikasi. 2. k-fold Cross Validation Pada teknik ini, data atau dokumen dipartisi menjadi k subset atau fold, S 1,S 2,...,S k, dengan ukuran yang sama. Pelatihan dan pengujian model merupakan proses yang iteratif, sebanyak k iterasi. Pada iterasi ke-i, subset S i berperan sebagai data penguji, dan subset yang lain menjadi data pelatihan. Untuk iterasi pertama, S 1 menjadi data penguji dan S 2, S 3,..., S k menjadi data pelatihan. Akurasi diukur dari total jumlah klasifikasi yang tepat dari k iterasi, dibagi dengan total jumlah seluruh data. II-15

16 II.2.3 Clustering Dokumen Clustering adalah proses mengelompokkan objek ke dalam kelas-kelas, disebut cluster, sehingga objek-objek pada satu cluster yang sama mempunyai tingkat kesamaan yang tinggi, tetapi berbeda dengan objek-objek pada cluster yang berbeda [11]. Clustering dokumen bersifat unsupervised learning, dokumen tidak dikategorikan oleh seorang supervisor. Pengelompokkan dilakukan menurut kesamaan antara dokumen. Kesamaan dihitung menggunakan hubungan dan kesatuan antar fitur dalam dokumen, dimana fitur dapat berupa kata dan frase [4]. Proses clustering dokumen dapat dilihat pada gambar II.6. Gambar II.6. Proses Clustering Dokumen Algoritma cluster dokumen harus memenuhi syarat atau kriteria sebagai berikut [12]: 1. High dimensionality. Algoritma clustering harus mampu menangani data yang memiliki dimensi atau atribut yang banyak. 2. Scalability. Algoritma cluster dokumen harus mampu menangani dokumen dalam jumlah banyak dengan efisien. 3. Accuracy. Algoritma cluster dokumen yang baik mempunyai kesamaan intracluster yang tinggi dan kesamaan inter-cluser yang rendah. 4. Easy to browse with meaningful cluster description. Struktur cluster yang dihasilkan harus tepat, mempunyai deskripsi yang berarti, dan mendukung browsing interaktif. 5. Prior domain knowledge. Algoritma cluster yang baik tidak bergantung pada parameter input, misalnya jumlah cluster, karena akan mengurangi akurasi cluster. Secara garis besar teknik clustering dibagi menjadi dua kelompok, yaitu exclusive dan non-exclusive cluster. Non-exclusive cluster memungkinkan sebuah dokumen menjadi anggota lebih dari satu cluster. Algoritma non-exclusive cluster yang II-16

17 dikenal adalah fuzzy clustering. Pada exclusive cluster sebuah dokumen hanya menjadi anggota satu cluster. Exclusive cluster terdiri atas hierarchical clustering dan partitional clustering. 1. Hierarchical Clustering Hierarchical clustering membentuk rangkaian partisi bersarang (nested partition) berbentuk dendogram, yaitu diagram yang menyerupai struktur pohon. Struktur hirarki dapat dibangun dengan metode agglomerative (bottom-up) dan divisive (top-down). Pada metode agglomerative dokumendokumen dikelompokkan ke dalam cluster yang terpisah, kemudian dua cluster yang mempunyai tingkat kesamaan yang tinggi digabungkan menjadi satu cluster. Metode divisive diawali dengan menyatukan semua dokumen ke dalam satu cluster, kemudian cluster dibagi menjadi cluster-cluster yang lebih kecil secara berulang-ulang hingga memenuhi kondisi tertentu. Ada empat metode yang digunakan untuk mengukur kesamaan atau jarak antara dua cluster, yaitu: a) Single-Link atau minimum distance. Jarak antara dua cluster ditentukan oleh kesamaan dua dokumen terdekat pada cluster yang berbeda. b) Complete-Link atau maximum distance. Jarak antara dua cluster ditentukan oleh kesamaan dua dokumen terjauh pada cluster yang berbeda. c) Average-Link atau average distance. Jarak antara dua cluster ditentukan oleh jarak rata-rata semua pasangan dokumen pada dua cluster berbeda, disebut unweighted pair-group average (UPGMA), atau menghitung jarak antara dua cluster menggunakan rata-rata bobot cluster, disebut weighted pair-group average (WPGMA). d) Ward s Method atau mean distance. Jarak antara dua cluster dievaluasi menggunakan pendekatan analisis varian; mean. Keanggotaan cluster dinilai dengan menghitung total rata-rata (mean) pangkat dua, atau sum of square. II-17

18 2. Partitional Clustering Algoritma partitional clustering membentuk cluster-cluster secara iteratif, dimulai dengan memilih cluster-cluster awal secara acak, kemudian memperbaiki cluster-cluster awal ini dengan melakukan relokasi objek secara iteratif. Partitional clustering membagi sekumpulan dokumen menjadi beberapa cluster non-hirarki yang terpisah, menggunakan matriks vektor term untuk menentukan hubungan antar dokumen. Fitur atau term pada setiap dokumen dibandingkan dan dokumen-dokumen yang mempunyai pola yang serupa dikelompokkan pada satu cluster. Partitional clustering sesuai untuk dokumen dalam jumlah besar, karena tidak memerlukan komputasi yang kompleks untuk membentuk dendogram. Kekurangan metode ini adalah sulitnya menentukan jumlah cluster pada awal pembentukan cluster. 1) K-Means Algoritma k-means merupakan metode clustering yang banyak digunakan, termasuk beberapa varian dari k-means. K-Means mengelompokkan dokumen ke dalam k partisi, sehingga dalam satu cluster menyimpan dokumendokumen dengan kesamaan yang tinggi. Prosedur pengelompokkan dokumen dengan k-means adalah sebagai berikut: 1.Memilih sejumlah k dokumen sebagai centroid atau cluster awal secara acak, menurut jumlah cluster yang ditentukan. 2.Mengelompokkan dokumen pada cluster yang paling sama (dekat) berdasarkan jarak antara dokumen dengan centroid. Untuk menentukan cluster terdekat, dokumen dibandingkan dengan semua centroid. Jarak dokumen dengan centroid dihitung menggunakan Euclidean distance. 3.Menghitung nilai rata-rata baru pada setiap cluster, sebagai centroid baru, yaitu nilai rata-rata dokumen pada setiap cluster. 4.Ulangi langkah 2 dan 3 hingga centroid tidak berubah, stabil dan konstan. Keluaran algoritma k-means adalah sekumpulan k clusters yang memenuhi kriteria squared-error, yaitu cluster dengan minimal squared-error. Squarederror didefinisikan sebagai [11]: E k i 1 pc i p mi 2 (13) II-18

19 dimana E adalah total squared-error untuk semua dokumen dalam basis data, p adalah titik yang merepresentasikan dokumen tertentu, dan m i adalah nilai rata-rata cluster C i. Kriteria squared-error menghasilkan sejumlah cluster yang padat dan terpisah satu dengan yang lain. Kelebihan algoritma k-means adalah k-means bersifat scalable dan efisien untuk memproses data dalam jumlah besar dengan kompleksitas komputasi linier. Kompleksitas komputasi k-means adalah O(nkt), dimana n adalah total jumlah dokumen, k adalah jumlah cluster, dan t adalah jumlah iterasi. 2) Single-Pass Algoritma single-pass dimulai dengan menentukan cluster-cluster kosong, kemudian mengambil sebuah dokumen secara acak atau menurut urutan yang sudah ditentukan. Dokumen yang diambil dianggap sebagai sebuah cluster baru dengan satu anggota. Cluster baru dibandingkan dengan cluster-cluster awal. Jika relasi antara cluster baru dan cluster lainnya lebih besar dari threshold yang ditentukan, maka cluster baru digabung dengan cluster terdekat, sebaliknya relasi lebih kecil dari threshold yang ditentukan, maka cluster baru ditambahkan pada kumpulan cluster. 3) Nearest Neighbor Algoritma nearest-neighbor serupa dengan metode hierarchical single-link, menggunakan jarak terdekat sebagai threshold untuk menentukan apakah dokumen-dokumen akan ditambahkan pada cluster yang sudah ada atau menciptakan cluster baru. 4) Expectation Maximization (EM) Algorithma EM dikembangkan dari algoritma K-Means, yang mengelompokkan dokumen pada cluster dengan menghitung bobot probabilitas keanggotaan dokumen pada cluster [11]. 3. Fuzzy Clustering Fuzzy clustering adalah metode non-exclusive clustering yang menghasilkan sejumlah partisi dengan batasan yang tidak jelas, dimana setiap objek dapat menjadi anggota pada lebih dari satu cluster secara bersamaan, tapi memiliki II-19

20 level yang berbeda pada setiap cluster. Cluster dinyatakan sebagai sebuah prototipe cluster yang terdiri dari cluster pusat, yang menjelaskan domain cluster, dan informasi tentang ukuran dan bentuk cluster. Keanggotaan objek pada cluster dinyatakan oleh fungsi keanggotaan (membership function) yang menghitung vektor keanggotaan untuk setiap objek. Elemen ke-i dari vektor keanggotaan, disebut faktor keanggotaan f i, adalah sebuah objek menyatakan level keanggotaan objek pada cluster ke-i. Level keanggotaan sebuah objek pada cluster dihitung menurut jarak antara objek dan cluster pusat. Semakin dekat objek dengan cluster pusat, semakin tinggi level keanggotaannya pada cluster tersebut, yang berarti faktor keanggotaan tinggi. Semakin tinggi faktor keanggotaan menyatakan pengelompokkan objek pada cluster semakin tepat. Algoritma yang dikenal pada fuzzy clustering adalah Fuzzy C-Means. Fuzzy C-Means menentukan cluster pusat secara acak atau random. Jarak antara objek dan cluster pusat dihitung menggunakan metrik Euclidean. Algoritma Fuzzy C-Means cenderung mempartisi objek ke dalam cluster-cluster yang berbentuk hyper-spherical dengan jumlah objek yang sama. Untuk mendapatkan partisi yang paling tepat proses pengelompokkan dilakukan berulang-ulang agar dapat meningkatkan objektifitas fungsi. Pengulangan proses pengelompokkan dilakukan dengan menginisialisasi cluster pusat yang berbeda, kemudian membandingkan hasil fungsi untuk memilih partisi terbaik. Kelebihan metode cluster dokumen adalah otomatisasi pengelompokkan dokumen; clustering tidak memerlukan predefined class label untuk dokumen; clustering dapat digunakan pada semua jenis koleksi teks, dapat menciptakan cluster dokumen baru, memperjelas query yang ambigu, dan mengeliminasi dokumen-dokumen yang tidak relevan. Sedangkan kelemahan cluster dokumen adalah dalam hal prediktabilitas, penamaan cluster, dan pengelompokkan yang tidak tepat; nama cluster tidak sesuai dengan isi dokumen dalam cluster [4]. II-20

21 II Distance Measure Dissimilarity atau similarity antara dokumen dihitung berdasarkan jarak antara setiap pasangan dokumen, disebut distance measure. Distance measure yang umum digunakan adalah [11]: 1. Euclidean distance, didefinisikan sebagai: d ( i, j) xi1 xj1 xi 2 xj 2... xin xjn (14) Dimana i = (x i1, x i2,...,x in ) dan j = (x j1, x j2,..., x jn ) adalah dua dokumen berdimensi n. 2. Manhattan distance, didefinisikan sebagai: d ( i, j) xi1 xj1 xi 2 xj 2... xin xjn (15) 3. Minkowski distance, didefinisikan sebagai: d( i, j) xi 1 xj q 1 xi 2 xj q 2 q... x in x q jn (16) II.3 Struktur Dokumen Penelitian berkaitan dengan mengubah dokumen elektronik dari bentuk tidak terstruktur ke dalam bentuk terstuktur dimotivasi oleh beberapa hal seperti kebutuhan untuk menggunakan kembali (reuse) dokumen, keseragaman bentuk dokumen pada basis data informasi, dan memfasilitasi proses pencarian atau pemanggilan kembali dokumen. Struktur sebuah dokumen sangat membantu manusia dalam menentukan sumber, topik, atau karakteristik lain dari dokumen. Dibandingkan dengan dokumen tidak terstruktur (flat document), dokumen terstruktur memungkinkan sistem atau pengguna untuk mengakses elemen atau bagian dari dokumen, sehingga dapat memperoleh informasi yang lebih tepat dan lebih berharga dari dokumen tersebut. Sebuah dokumen mempunyai dua struktur, yaitu struktur fisik geometris atau layout, dan struktur logik. Perbedaan struktur layout dan logik dijelaskan oleh [15]. Struktur layout tidak memberikan informasi yang dapat membantu pembaca II-21

22 dokumen untuk memahami arti dokumen. Struktur layout bervariasi antara satu dokumen dengan dokumen lain. Dari sudut pandang stuktur layout dokumen dibentuk oleh halaman-halaman, sebuah halaman terdiri dari beberapa blok teks, sebuah blok teks terdiri dari beberapa baris, dan sebuah baris terdiri dari beberapa kata. Struktur logik berkaitan dengan isi dokumen yang memberikan informasi kepada pembaca dokumen tentang arti dokumen. Struktur logik bersifat tetap. Dari sudut pandang struktur logik dokumen terdiri atas unit-unit logik seperti babbab dari buku, paragraf dari bab, heading, judul, tabel, dan sebagainya. Representasi struktur layout dokumen dapat dilihat pada gambar II.7, sedangkan struktur logik dokumen pada gambar II.8; kedua gambar tersebut disadur dari [16]. Document Page... Page Block... Block Line... Line Word... Word Gambar II.7. Struktur Layout Dokumen II-22

23 Document Logical Unit Title, Author, Abstract Logical Unit Table... Logical Unit List Block Table Cell List Entity Line Table Cell List Entity Line Block Line Word Line Line Word Line Word Word Word Word Gambar II.8. Struktur Logik Dokumen Struktur logik dokumen direpresentasikan dalam bentuk struktur pohon atau berbentuk hirarki [17]. Bentuk struktur seperti ini merupakan representasi umum struktur dokumen XML. Setiap node pada struktur pohon dokumen menyatakan bagian dari dokumen, yang menyimpan dua informasi yaitu label, disebut juga structural node, dan konten. Label adalah informasi yang merepresentasikan bentuk struktural dokumen, sedangkan konten adalah isi node. Pada dokumen XML label didefinisikan pada DTD dokumen. Contoh stuktur pohon sebuah dokumen pada gambar II.9 [17]. II-23

24 Title This is the 'Title' of this document Author Abstract Author of the document This document is an example of semistructured document Document This is the first section Section Paragraph This is the first paragraph Paragraph This is the second paragraph Section This is the second section Paragraph This is the third paragraph Gambar II.9. Struktur Logik Dokumen dalam Bentuk Struktur Pohon Pada gambar II.9, sebuah dokumen memiliki label sebagai berikut: tile, author, abstract, section, dan paragraph. Konten node title adalah teks yang menyatakan title dokumen tersebut; konten node paragraph adalah teks paragraf, dan seterusnya. II.3.1 Klasifikasi Dokumen Semi-structured Dokumen terstruktur (struktur logik) memiliki representasi yang lebih kaya dibanding dokumen flat atau tidak terstruktur. Sebagian besar data atau informasi yang disimpan dalam basis data teks atau basis data dokumen adalah dokumen semi-structured. Dokumen semi-structured terdiri atas komponen dokumen yang terstruktur dan tidak terstruktur. Komponen dokumen terstruktur adalah komponen yang memiliki pasangan attribute-value; contoh, pada gambar II.9 title dan author termasuk komponen terstuktur. Komponen dokumen tidak terstruktur dapat berbentuk teks atau gambar; contoh, pada gambar II.9 isi abstract dan isi paragraf merupakan komponen tidak terstruktur. II-24

25 Klasifikasi dokumen terstruktur atau dokumen semi-structured dapat dilakukan dengan teknik modeling, yang terdiri atas dua pendekatan [17]. Pendekatan pertama, menggunakan classifier teks tidak terstruktur yang berbeda, sebagai base classifier, untuk mengklasifikasi bagian-bagian dokumen yang berbeda. Selanjutnya hasil klasifikasi base classifier digabungkan untuk mengklasifikasi seluruh dokumen. Pendekatan kedua, membangun classifier baru yang disesuaikan untuk dokumen terstruktur, disebut generative model. II-25

PENDAHULUAN. I.1 Latar Belakang

PENDAHULUAN. I.1 Latar Belakang I PENDAHULUAN I.1 Latar Belakang Internet sebagai jaringan komputer skala global telah mendorong pertambahan jumlah informasi digital. Pada sistem yang bersifat terbuka seperti internet, pertambahan informasi

Lebih terperinci

BAB 2 LANDASAN TEORI

BAB 2 LANDASAN TEORI BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dan metode yang digunakan pada tugas akhir ini dalam pengklasifikasian dokumen teks. Pembahasan dimulai dengan penjelasan mengenai klasifikasi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)

Lebih terperinci

PENDAHULUAN. 1.1 Latar Belakang

PENDAHULUAN. 1.1 Latar Belakang DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 KLASIFIKASI PADA TEXT MINING Budi Susanto Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa

Lebih terperinci

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING Budi Susanto KLASIFIKASI PADA TEXT MINING Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep dasar sistem klasifikasi Memahami beberapa algoritma klasifikasi: KNN Naïve Bayes Decision

Lebih terperinci

ROCCHIO CLASSIFICATION

ROCCHIO CLASSIFICATION DOSEN PEMBIMBING : Badriz Zaman, S.Si., M.Kom. 081211632016 S-1 SISTEM INFORMASI UNIVERSITAS AIRLANGGA 1 Informastion retieval system merupakan sebuah sistem yang digunakan untuk mengambil kembali informasi

Lebih terperinci

DATA MINING DAN WAREHOUSE A N D R I

DATA MINING DAN WAREHOUSE A N D R I DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma

Lebih terperinci

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering

Tipe Clustering. Partitional Clustering. Hirerarchical Clustering Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan

Lebih terperinci

BAB III METODELOGI PENELITIAN

BAB III METODELOGI PENELITIAN BAB III METODELOGI PENELITIAN 3.1 Metode Penelitian Metode penelitian yang digunakan yaitu metode eksperimental dimana metode ini bekerja dengan memanipulasi dan melakukan kontrol pada objek penelitian

Lebih terperinci

BAB V EKSPERIMEN TEXT CLASSIFICATION

BAB V EKSPERIMEN TEXT CLASSIFICATION BAB V EKSPERIMEN TEXT CLASSIFICATION Pada bab ini akan dibahas eksperimen untuk membandingkan akurasi hasil text classification dengan menggunakan algoritma Naïve Bayes dan SVM dengan berbagai pendekatan

Lebih terperinci

BAB I. Pendahuluan. 1. Latar Belakang Masalah

BAB I. Pendahuluan. 1. Latar Belakang Masalah BAB I Pendahuluan 1. Latar Belakang Masalah Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan

Lebih terperinci

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen

BAB III PERANCANGAN. Fitur. Reduksi & Pengelompokan. Gambar 3.1. Alur Pengelompokan Dokumen BAB III PERANCANGAN Pada bab ini akan delaskan tahapan yang dilalui dalam melakukan perancangan penelitian yang akan dilakukan dalam tugas akhir ini. Tahapan tersebut meliputi perancangan implementasi

Lebih terperinci

BAB IV PREPROCESSING DATA MINING

BAB IV PREPROCESSING DATA MINING BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Data Mining 2.1.1 Pengertian Data Mining Dengan semakin besarnya jumlah data dan kebutuhan akan analisis data yang akurat maka dibutuhkan metode analisis yang tepat. Data mining

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 7 BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Penelitian-penelitian yang pernah dilakukan di bidang information retrieval telah memunculkan berbagai metode pembobotan dan clustering untuk mengelompokkan

Lebih terperinci

ANALISIS CLUSTER PADA DOKUMEN TEKS

ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami

Lebih terperinci

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining

commit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA digilib.uns.ac.id BAB II TINJAUAN PUSTAKA 2.1. Landasan Teori 2.1.1. Twitter API Twitter API terdiri dari dua komponen yang berbeda, REST dan SEARCH API. REST API memungkinkan pengembang/developer Twitter

Lebih terperinci

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN

UKDW. 1.1 Latar Belakang BAB 1 PENDAHULUAN BAB 1 PENDAHULUAN 1.1 Latar Belakang Perkembangan teknologi komputer yang pesat pada masa kini menjadi perhatian utama bagi manusia. Kemajuan teknologi komputer yang pesat ini menimbulkan bermacam-macam

Lebih terperinci

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN

PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem

Lebih terperinci

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction

Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Education data mining merupakan penelitian didasarkan data di dunia pendidikan untuk menggali dan memperoleh informasi tersembunyi dari data yang ada. Pemanfaatan education

Lebih terperinci

BAB I PENDAHULUAN. 1.1 Latar Belakang

BAB I PENDAHULUAN. 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Berdasarkan data dari Kementerian Komunikasi dan Informasi Indonesia yang diperoleh dari Lembaga Riset Pasar E-Marketer, populasi pengguna internet tanah air pada tahun

Lebih terperinci

Clustering. Virginia Postrel

Clustering. Virginia Postrel 8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect

Lebih terperinci

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO

KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO F.15 KLASIFIKASI DATA PENGADUAN MASYARAKAT PADA LAMAN PESDUK CIMAHI MENGGUNAKAN ROCCHIO Khusnul Khuluqiyah *, Tacbir Hendro Pudjiantoro, Agung Wahana Program Studi Informatika, Fakultas Matematika dan

Lebih terperinci

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA

IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat

BAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan

Lebih terperinci

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2]

BAB II DASAR TEORI Crawler Definisi Focused Crawler dengan Algoritma Genetik [2] BAB II DASAR TEORI Pada bab ini dibahas teori mengenai focused crawler dengan algoritma genetik, text mining, vector space model, dan generalized vector space model. 2.1. Focused Crawler 2.1.1. Definisi

Lebih terperinci

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010

JURNAL TEKNOLOGI INFORMASI & PENDIDIKAN ISSN : VOL. 2 NO. 1 SEPTEMBER 2010 PERBANDINGAN METODE K-NEAREST NEIGHBOR (KNN) dan METODE NEAREST CLUSTER CLASSIFIER (NCC) DALAM PENGKLASIFIKASIAN KUALITAS BATIK TULIS Nesi Syafitri 1 ABSTRACT Various problem that are related to classification

Lebih terperinci

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine

BAB III METODOLOGI. Support Vector Machines (SVM) merupakan salah satu metode machine BAB III METODOLOGI 3.1 Hipotesis Support Vector Machines (SVM) merupakan salah satu metode machine learning yang dapat melakukan klasifikasi data dengan sangat baik. Metode ini bertujuan untuk mendapatkan

Lebih terperinci

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak

PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR. Abstrak ISSN 1858 4667 JURNAL LINK Vol 13/No.1/Januari 2010 PERBANDINGAN KLASIFIKASI DOKUMEN TEKS MENGGUNAKAN METODE NAÏVE BAYES DENGAN K-NEAREST NEIGHBOR Cahyo Darujati Fakultas Ilmu Komputer, Universitas Narotama

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Seiring berkembangnya teknologi informasi, kebutuhan akan informasi yang digunakan untuk mendukung business intelligent suatu perusahaan juga meningkat. Informasi penting

Lebih terperinci

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah

BAB II TINJAUAN PUSTAKA. penelitian yang penting (Baharudin, Lee and Khan, 2010). Beberapa peneliti telah BAB II TINJAUAN PUSTAKA Beberapa peneliti yang melakukan penelitian menganggap text mining menjadi sangat penting karena kemudahan untuk mendapatkan data elektronik dari berbagai macam sumber, karena itu

Lebih terperinci

Algoritma Dasar. 4.1 Naive Bayes

Algoritma Dasar. 4.1 Naive Bayes 4 Algoritma Dasar It is a capital mistake to theorize before one has data. Arthur Conan Doyle Sebelum masuk ke algoritma machine learning yang cukup modern/ matematis, kami akan memberi contoh algoritma

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Penentuan dosen pembimbing tugas akhir masih dilakukan secara manual di Jurusan Teknik Informatika UMM yang hanya mengandalkan pengetahuan personal tentang spesialisasi

Lebih terperinci

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi

Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Pemanfaatan Metode Vector Space Model dan Metode Cosine Similarity pada Fitur Deteksi Hama dan Penyakit Tanaman Padi Ana Triana Informatika, Fakultas MIPA, Universitas Sebelas Maret Surakarta Jl. Ir. Sutami

Lebih terperinci

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas

Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas Implementasi Algoritma Term Frequency Inverse Document Frequency dan Vector Space Model untuk Klasifikasi Dokumen Naskah Dinas A. Achmad 1, A. A. Ilham 2, Herman 3 1 Program Studi Teknik Elektro, Jurusan

Lebih terperinci

TINJAUAN PUSTAKA. Definisi Data Mining

TINJAUAN PUSTAKA. Definisi Data Mining TINJAUAN PUSTAKA Definisi Data Mining Sistem Manajemen Basis Data tingkat lanjut dan teknologi data warehousing mampu untuk mengumpulkan banjir data dan untuk mentransformasikannya ke dalam basis data

Lebih terperinci

SISTEM TEMU KEMBALI INFORMASI

SISTEM TEMU KEMBALI INFORMASI SISTEM TEMU KEMBALI INFORMASI ROCCHIO CLASSIFICATION Badrus Zaman, S.Si., M.Kom Doc. 1..???? Doc. 2..**** Doc. 3. #### Doc. 4..@@@ 081211633014 Emilia Fitria Fahma S1 Sistem Informasi Pengertian Teknik

Lebih terperinci

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai

BAB II TINJAUAN PUSTAKA. Penelitian awal dalam bidang automatic text summarization dimulai BAB II TINJAUAN PUSTAKA Penelitian awal dalam bidang automatic text summarization dimulai dengan pembuatan metode term frequency oleh Luhn pada tahun 1958. Metode ini berasumsi bahwa frekuensi kata di

Lebih terperinci

ANALISIS KLASTERING LIRIK LAGU INDONESIA

ANALISIS KLASTERING LIRIK LAGU INDONESIA ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,

Lebih terperinci

Gambar 1.1 Proses Text Mining [7]

Gambar 1.1 Proses Text Mining [7] 1. BAB II LANDASAN TEORI 2.1 Text Mining Text mining memiliki definisi menambang data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat

Lebih terperinci

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks

BAB II KAJIAN TEORI. linier, varian dan simpangan baku, standarisasi data, koefisien korelasi, matriks BAB II KAJIAN TEORI Pada bab II akan dibahas tentang materi-materi dasar yang digunakan untuk mendukung pembahasan pada bab selanjutnya, yaitu matriks, kombinasi linier, varian dan simpangan baku, standarisasi

Lebih terperinci

Bandung, Indonesia Bandung, Indonesia

Bandung, Indonesia Bandung, Indonesia ISSN : 2355-9365 e-proceeding of Engineering : Vol.2, No.2 Agustus 2015 Page 6353 Analisis dan Implementasi Pengklasifikasian Pesan Singkat pada Penyaringan SMS Spam Menggunakan Algoritma Multinomial Naïve

Lebih terperinci

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI

BAB I PENDAHULUAN. Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI BAB I PENDAHULUAN I.1 Latar Belakang Informasi yang terdapat dalam Laporan Hasil Pemeriksaan (LHP) BPK RI saat ini belum di-manaje dengan baik secara digital. Informasi yang terdapat dalam LHP yang terdapat

Lebih terperinci

BAB III METODE PENELITIAN

BAB III METODE PENELITIAN BAB III METODE PENELITIAN 3.1. Metode Pengumpulan Data Data yang digunakan pada penelitian ini merupakan data sentimen dari pengguna aplikasi android yang memberikan komentarnya pada fasilitas user review

Lebih terperinci

LAPORAN TUGAS AKHIR. Disusun oleh: Franky

LAPORAN TUGAS AKHIR. Disusun oleh: Franky LAPORAN TUGAS AKHIR Analisis Sentimen Menggunakan Metode Naive Bayes, Maximum Entropy, dan Support Vector Machine pada Dokumen Berbahasa Inggris dan Dokumen Berbahasa Indonesia Hasil Penerjemahan Otomatis

Lebih terperinci

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni

LANDASAN TEORI. Universitas Indonesia. Klasifikasi topik menggunakan..., Dyta Anggraeni BAB 2 LANDASAN TEORI Pada bab ini dijelaskan landasan teori dari pekerjaan dan metode yang digunakan dalam tugas akhir untuk melakukan klasifiksi topik. Pembahasan ini dimulai dengan penjelasan klasifikasi

Lebih terperinci

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP

KATA PENGANTAR. menyelesaikan penyusunan laporan tugas akhir APLIKASI KLASIFIKASI ARTIKEL TEKNOLOGI INFORMASI PADA MAJALAH CHIP KATA PENGANTAR Syukur Alhamdulillah, puji dan syukur kami panjatkan kehadirat Allah SWT, karena dengan limpah dan rahmat dan karunia-nya penulis dapat menyelesaikan penyusunan laporan tugas akhir APLIKASI

Lebih terperinci

BAB I PENDAHULUAN Latar Belakang

BAB I PENDAHULUAN Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Semakin canggihnya teknologi di bidang komputasi dan telekomunikasi pada masa kini, membuat informasi dapat dengan mudah didapatkan oleh banyak orang. Kemudahan ini

Lebih terperinci

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari

KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari KLASSIFIKASI DOKUMEN TEKS BERBAHASA ARAB MENGGUNAKAN ALGORITMA NAÏVE BAYES 1 Abdur Rozaq 2 Agus Zainal Arifin 3 Diana Purwitasari Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi

Lebih terperinci

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana

BAB IV METODOLOGI PENELITIAN. Penelitian ini dilakukan dengan melalui empat tahap utama, dimana BAB IV METODOLOGI PENELITIAN Penelitian ini dilakukan dengan melalui empat tahap utama, dimana tahap pertama adalah proses pengumpulan dokumen teks yang akan digunakan data training dan data testing. Kemudian

Lebih terperinci

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS)

PRESENTASI TUGAS AKHIR KI PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) PRESENTASI TUGAS AKHIR KI091391 PERANCANGAN DAN PEMBANGUNAN MODUL REKOMENDASI SECTION PADA OPEN JOURNAL SYSTEM (OJS) (Kata kunci: Jurnal, K-Nearest Neighbor, Karya Ilmiah, Klasifikasi Penyusun Tugas Akhir

Lebih terperinci

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas

TAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge

Lebih terperinci

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN)

KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST NEIGHBORS (K-NN) Klasifikasi Helpdesk Universitas Jenderal Achmad ni... (Herawan dkk.) KLASIFIKASI HELPDESK UNIVERSITAS JENDERAL ACHMAD YANI MENGGUNAKAN CONCEPT FREQUENCY-INVERSE DOCUMENT FREQUENCY (CF-IDF) DAN K-NEAREST

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI Pada bab ini berisi tentang data dan informasi yang berkaitan dengan pokok permasalahan yang akan diuji, yaitu dengan mendalami tentang klasifikasi teks. Selain itu juga membahas

Lebih terperinci

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS

IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS IMPLEMENTASI ALGORITMA K-NEAREST NEIGHBOUR YANG BERDASARKAN ONE PASS CLUSTERING UNTUK KATEGORISASI TEKS Andreas Daniel Arifin 1, Isye Arieshanti 2, Agus Zainal Arifin 3 1,2,3 Jurusan Teknik Informatika,

Lebih terperinci

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 2014 Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 Bab 1. Data Mining 1.1 Pengertian Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan

Lebih terperinci

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output,

II TINJAUAN PUSTAKA. * adalah operasi konvolusi x dan y, adalah fungsi yang merepresentasikan citra output, 5 II INJAUAN PUSAKA.1 Fitur Scale Invariant Feature ransform (SIF) Fitur lokal ditentukan berdasarkan pada kemunculan sebuah objek pada lokasi tertentu di dalam frame. Fitur yang dimaksudkan haruslah bersifat

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Empiris BAB II TINJAUAN PUSTAKA Pada penelitian ini, peneliti menggunakan beberapa penelitian yang pernah dilakukan sebelumnya sebagai tinjauan studi. Berikut ialah tinjauan empiris yang digunakan:

Lebih terperinci

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN

BAB 3 PERANCANGAN 3.1 GAMBARAN UMUM PROSES SEGMENTASI DOKUMEN 28 BAB 3 PERANCANGAN Pada bab ini akan dijelaskan mengenai rancangan percobaan pada penelitian segmentasi dokumen ini. Pembahasan akan dimulai dengan penjelasan mengenai gambaran umum proses segmentasi

Lebih terperinci

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning

Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Sistem Rekomendasi Sistem rekomendasi adalah sebuah sistem yang dibangun untuk mengusulkan informasi dan menyediakan fasilitas yang diinginkan pengguna dalam membuat suatu keputusan

Lebih terperinci

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING

LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam

Lebih terperinci

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159

BAB 3 PERANCANGAN. Tabel 3.1 Daftar Kategori dan Jumlah Dokumen Teks. Dokumen Bulutangkis 155 Basket 59 Otomotif 160 Sepakbola 767 Tenis 159 23 BAB 3 PERANCANGAN Bab ini menjelaskan tentang perancangan yang digunakan untuk melakukan eksperimen klasifikasi dokumen teks. Bab perancangan klasifikasi dokumen teks ini meliputi data (subbab 3.1),

Lebih terperinci

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR

STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR STUDI AWAL KLASIFIKASI ARTIKEL WIKIPEDIA BAHASA INDONESIA DENGAN MENGGUNAKAN METODA K NEAREST NEIGHBOR Erik Hardiyanto 1), Faisal Rahutomo 1) 1 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,

Lebih terperinci

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN

PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN PEMANFAATAN ASSOCIATION RULE MINING DALAM MEMBANTU PENCARIAN DOKUMEN-DOKUMEN BERITA YANG SALING BERKAITAN Hermawan Andika Institut Informatika Indonesia andika@iii.ac.id Suhatati Tjandra Sekolah Tinggi

Lebih terperinci

BAB IV HASIL DAN PEMBAHASAN

BAB IV HASIL DAN PEMBAHASAN BAB IV HASIL DAN PEMBAHASAN 4.1 Hasil Penelitian 4.1.1 Support Vector Machines (SVM) Setelah melalui proses training dan testing dengan metode Support Vector Machines (SVM), diperoleh hasil yang tertera

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Information age atau computer age adalah suatu era dimana kebutuhan seseorang akan informasi menjadi suatu hal yang sangat penting. Pada saat era informasi ini seseorang

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Document summarization adalah proses pengambilan teks dari sebuah dokumen dan membuat sebuah ringkasan yang mempunyai informasi yang lebih berguna bagi user

Lebih terperinci

Pengujian Kerelevanan Sistem Temu Kembali Informasi

Pengujian Kerelevanan Sistem Temu Kembali Informasi Pengujian Kerelevanan Sistem Temu Kembali Informasi Ari Wibowo / 23509063 Jurusan Teknik Informatika, Politeknik Negeri Batam Jl. Parkway No 1 Batam Center, Batam wibowo@polibatam.ac.id Abstrak Sistem

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Jurnal Integrasi, vol. 6, no. 1, 2014, 21-25 ISSN: 2085-3858 (print version) Article History Received 10 February 2014 Accepted 11 March 2014 Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI 2.1 Sistem Rekomendasi 2.1.1 Pengantar Sistem Rekomendasi Proses memberitahukan kepada seseorang atau lebih bahwa sesuatu yang dapat dipercaya, dapat juga merekomendasikan diartikan

Lebih terperinci

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE

PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Vol 2, No 3 Juni 2012 ISSN 2088-2130 PEMILIHAN FITUR OPTIMAL UNTUK TUGAS AKHIR MAHASISWA DENGAN METODE SUPPORT VECTOR MACHINE Devie Rosa Anamisa 1), Eka Mala Sari Rochman 2) 1,2 Teknik Informatika, Fakultas

Lebih terperinci

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB I PENDAHULUAN 1.1 Latar Belakang BAB I PENDAHULUAN 1.1 Latar Belakang Analisis sentimen merupakan proses dalam mengolah, memahami, dan mengekstrak data dalam bentuk teks terhadap suatu topik, kejadian ataupun individu untuk mendapatkan

Lebih terperinci

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi

Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem Temu Kembali Informasi Analisis dan Pengujian Kinerja Korelasi Dokumen Pada Sistem emu Kembali Informasi Ari Wibowo Program Studi eknik Multimedia dan Jaringan, Politeknik Negeri Batam E-mail : wibowo@polibatam.ac.id Abstrak

Lebih terperinci

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah BAB II TINJAUAN PUSTAKA 2.1 Landasan Teori 2.1.1 Indeks Prestasi Kumulatif dan Lama Studi Mahasiswa yang telah menyelesaikan keseluruhan beban program studi yang telah ditetapkan dapat dipertimbangkan

Lebih terperinci

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS

IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS IMPLEMENTASI METODE ANT COLONY OPTIMIZATION UNTUK PEMILIHAN FITUR PADA KATEGORISASI DOKUMEN TEKS Yudis Anggara Putra Chastine Fatichah Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut

Lebih terperinci

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI)

K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI) K NEAREST NEIGHBOR INFORMATION RETRIEVAL (SISTEM TEMU KEMBALI INFORMASI) Disusun Oleh : Alfian Sukma 081116007 Dian Ramadhan 081211631003 Bagus Puji Santoso 081211631061 Tiara Ratna Sari 081211632014 Ni

Lebih terperinci

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN

INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN INTEGRASI PERINGKAS DOKUMEN OTOMATIS SEBAGAI FEATURE REDUCTION PADA CLUSTERING DOKUMEN Abu Salam 1, Catur Supriyanto 2, Amiq Fahmi 3 1,2 Magister Teknik Informatika, Univ. Dian Nuswantoro Email: masaboe@yahoo.com

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Kebutuhan akan informasi yang sangat luas dan tidak terbatas seiring dengan sumber informasi yang banyak merupakan suatu bukti konkret bahwa informasi sangat dibutuhkan

Lebih terperinci

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN

Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Konferensi Nasional Sistem & Informatika 2015 STMIK STIKOM Bali, 9 10 Oktober 2015 Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN Achmad Ridok 1), Retnani Latifah 2) Filkom

Lebih terperinci

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio 21 BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) 3.1 Regresi Logistik Biner Regresi logistik berguna untuk meramalkan ada atau tidaknya karakteristik berdasarkan prediksi

Lebih terperinci

BAB II TINJAUAN PUSTAKA

BAB II TINJAUAN PUSTAKA BAB II TINJAUAN PUSTAKA 2.1 Fuzzy Local Binary Pattern (FLBP) Fuzzifikasi pada pendekatan LBP meliputi transformasi variabel input menjadi variabel fuzzy, berdasarkan pada sekumpulan fuzzy rule. Dalam

Lebih terperinci

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR

WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR WEB CONTENT MINING MENGGUNAKAN PARTITIONAL CLUSTERING K-MEANS PADA NEWS AGGREGATOR Achmad Thoriq B, Nelly Indriani W Abstract News aggregator is one type of aggregator system (collector) which collects

Lebih terperinci

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS DEBBY. E. SONDAKH NIM:

PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS DEBBY. E. SONDAKH NIM: PENGEMBANGAN MODEL DAN STRUKTUR INFORMASI UNTUK KONTEN BERBASIS TEKS PADA SISTEM NOTEBOX TESIS Karya tulis sebagai salah satu syarat untuk memperoleh gelar Magister dari Institut Teknologi Bandung Disusun

Lebih terperinci

BAB III METODOLOGI PENELITIAN

BAB III METODOLOGI PENELITIAN 28 BAB III METODOLOGI PENELITIAN Untuk menunjang kegiatan penelitian, dalam bab ini akan dijelaskan desain penelitian, metode penelitian yang digunakan, serta alat dan bahan penelitian. 3.1 Desain Penelitian

Lebih terperinci

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI BAB II LANDASAN TEORI II.1 Sistem Pendukung Keputusan II.1.1 Definisi Sistem Pendukung Keputusan Berdasarkan Efraim Turban dkk, Sistem Pendukung Keputusan (SPK) / Decision Support System (DSS) adalah sebuah

Lebih terperinci

PRESENTASI TUGAS AKHIR KI091391

PRESENTASI TUGAS AKHIR KI091391 PRESENTASI TUGAS AKHIR KI091391 IMPLEMENTASI KD-TREE K-MEANS CLUSTERING PADA KLASTERISASI DOKUMEN (Kata kunci: KD-Tree K-Means Clustering, Klasterisasi Dokumen, K- Dimensional Tree, K-Means Clustering)

Lebih terperinci

BAB 3 LANDASAN TEORI

BAB 3 LANDASAN TEORI BAB 3 LANDASAN TEORI 3.1 Twitter API Application Programming Interface (API) merupakan fungsi-fungsi/perintah-perintah untuk menggantikan bahasa yang digunakan dalam system calls dengan bahasa yang lebih

Lebih terperinci

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK

Nur Indah Pratiwi, Widodo Universitas Negeri Jakarta  ABSTRAK Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas

Lebih terperinci

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015

MODEL DATA MINING CAPAIAN PEMBELAJARAN. N. Tri Suswanto Saptadi. Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 12/4/2015 1 MODEL DATA MINING N. Tri Suswanto Saptadi CAPAIAN PEMBELAJARAN Definisi Kategori Model Naïve Bayesian k-nearest Neighbor Clustering 1 3 Definisi Mining : proses atau usaha untuk mendapatkan sedikit barang

Lebih terperinci

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah

UKDW 1. BAB 1 PENDAHULUAN Latar Belakang Masalah 1. BAB 1 PENDAHULUAN 1.1. Latar Belakang Masalah Universitas yang baik dan terpercaya selalu memperhatikan perkembangan dan kondisi yang terjadi di universitas tersebut, salah satunya dengan memantau kinerja

Lebih terperinci

BAB I PENDAHULUAN 1.1. Latar Belakang

BAB I PENDAHULUAN 1.1. Latar Belakang BAB I PENDAHULUAN 1.1. Latar Belakang Dalam mencapai tujuan pembangunan ekonomi diperlukan peran serta lembaga keuangan untuk membiayai pembangunan tersebut. Lembaga keuangan memegang peranan penting dalam

Lebih terperinci