BAB II LANDASAN TEORI
|
|
- Ade Lie
- 6 tahun lalu
- Tontonan:
Transkripsi
1 BAB II LANDASAN TEORI 2.1 Text Mining Text mining, yang juga disebut text data mining (TDM) atau knowledge discovery in text( KDT), secara umum mengacu pada proses ekstraksi informasi dari dokumen-dokumen teks yang tidak terstruktur (unstructured). Teks mining dapat didefinisikan sebagai penemuan informasi baru dan tidak diketahui sebelumnya oleh computer, dengan secara otomatis mengekstrak informasi dari sumber-sumber teks tidak terstruktur yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber (Tan,1999). Karakteristik dokumen teks menurut Loreta Auvil dan Duane Searsmith dari University Of Illinois adalah: 1. Database teks yang berukuran besar, memiliki dimensi yang tinggi, yakni satu kata merupakan satu dimensi. 2. Mengandung kumpulan kata yang saling terkait (frase) dan antara kumpulan kata satu dengan lain dapat memiliki arti yang berbeda. 3. Banyak mengandung kata ataupun arti yang bias (ambiguity) 4. Dokumen merupakan dokumen yang tidak memiliki struktur bahasa yang baku, karena di dalamnya terkadang muncul istilah slank seperti r u there?, dan hello boss, whatzzzz up?, dan sebagainya. 2.2 Ruang Lingkup Text Mining Text mining merupakan suatu proses yang melibatkan beberapa area teknologi. Menurut evennamun secara umum proses-proses pada teks mining mengadopsi awal terhadap teks (text preprocessing), transformasi teks (text transformation), pemilihan fitur (feature selection) dan penemuan pola (pattern discovery).
2 case Folding filtering Text Prepocessing Text Transformation K-Gram Nilai Hash Menentukan window Fingerprint Reduksi Fingerprint Feature Selection Pattern Discovery Kelompok (k) Tabel Master Fingerprint Centroid awal (random) Similarity (jaccard coefficient) Centroid baru Clustering Gambar 2.1 Tahapan Text Mining Text Preprocessing Tahap ini melakukan analisis semantik dan sintaktik terhadap teks. Tujuan dari pemrosesan awal adalah untuk mempersiapkan teks menjadi data yang akan mengalami pengolahan lebih lanjut. Operasi yang dapat dilakukan pada tahap ini meliputi part-of-speech yang menghasilkan parse tree untuk setiap kalimat, dan pembersihan teks.syarat-syarat inputan awal daritext preprocessing: 1. Case Folding, yaitu proses mengubah atau mengekstrak huruf capital dalam dokumen teks menjadi huruf kecil. 2. Filtering, Tahap lanjutan dari case Folding yaitu menghilangkan karakter dokumen teks yang tidak relevan, seperti tanda baca, spasi, dll, contoh kalimat Fakultas Sains dan Teknologi Univeristas Islam Negeri Riau melalui tahapan Filteringakanterbentuk fakultassainsdanteknologiuniversitasislamnegeririau Text Transformation Setelah tahapan text preprocessing selesai maka akan dilakukan tahapan text transformation atau pembentukan atribut yang mengacu pada proses untuk mendapatkan representasi dokumen yang diharapkan. Tahapan transformasi teks terdapat dalam lanjutan langkah metode algoritma winnowing.algoritma winnowing merupakan algoritmaa yang digunakan dalam deteksi penjiplakan, input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai II-2
3 hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter Algoritma Winnowing Algoritma winnowing merupakan algoritma yang digunakan dalam mencari kesamaan isi dokumen teks, dimana input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. Kumpulan-kumpulan nilai hash tersebut selanjutnya disebut fingerprint (Schleimer dkk, 2003). Dari karakter yang telah dijelaskan dapat kita ketahui bahwa algoritma winnowing cocok diterapkan untuk pencocokan kalimat dan mencari kesamaan pola kata dalam dokumen teks. Secara garis besar, berikut konsep algoritma winnowing bekerja: 1. Pembentukan rangkaian gram dengan ukuran k-gram. Contoh kalimat yang akan dilakukan proses pembentukan gram, dengan nilai k-gram 7 (Muhammad Ridho, 2013). Teknik Informatika adalah salah satu jurusan yang terdapat di Fakultas Sains dan teknikinformatikaadalahsalahsatujurusanyangterdapatdifakultassainsdanteknol teknikieknikinknikinfnikinfoikinforkinforminformanformatformati ormatikrmatikamatikaaatikaadtikaadaikaadalkaadala aadalahadalahsdalahsaalahsallahsalaahsalahhsalahssalahsa alahsatlahsatuahsatujhsatujusatujuratujuru tujurusujurusajurusanurusanyrusanyausanyansanyanganyangtnyangte yangter angterdngterdagterdapterdapaerdapatrdapatddapatdiapatdif patdifaatdifaktdifakudifakulifakultfakultaakultaskultass ultassaltassaitassainassainsssainsd sainsdaainsdaninsdant II-3
4 2. Penghitungan nilai hash. Fungsi hash adalah sebuah fungsi yang mengkonvert setiap string menjadi bilangan, yang disebut hash value. Kunci agar algoritma winnowing yang efektif terdapat pada pemilihan hash valuenya. Salah satu cara yang terkenal dan efektif adalah dengan basis tertentu, biasanya yang dijadikan basis adalah bilangan prima berukuran besar. Secara teknis, algoritma rooling hash ini mirip dengan representasi bilangan bulat. Keuntungan yang paling penting yang didapat dengan representasi ini adalah memungkinkan kita untuk menhitung hash value dari substring Mencari nilai hash dari setiap fungsi string diatas sesuai dengan persamaan hash value maka diperlukan nilai c yaitu nilai ASCII karakter. Dari nilai ascii karakter tersebut maka algoritma winnowing dapat dicari dengan menggunakan persamaan rolling hash yaitu dengan membandingkan nilai uji fingerprint dokumen teks yang sama dengan dokumen teks asli. Sebagai perbandingan dalam suatu metode pencocokan fingerprint maka nilai hash yang terkecil akan di jadikan nilai untuk fingerprint awal dari window-window yang telah dibentuk. Berikut tabel nilai ASCII karakter yang kita ketahui untuk fungsi hash: Tabel 2.1 Nilai karakter-karakter ASCII ALPHABET NILAI ASCII ALPHABET NILAI ASCII A 65 a 97 B 66 b 98 C 67 c 99 D 68 d 100 E 69 e 101 F 70 f 102 G 71 g 103 H 72 h 104 I 73 i 105 J 74 J 106 K 75 k 107 L 76 l 108 M 77 m 109 N 78 n 110 O 79 o 111 P 80 p 112 Q 81 q 113 R 82 r 114 S 83 s 115 II-4
5 T 84 t 116 U 85 u 117 V 86 v 118 W 87 w 119 X 88 x 120 Y 89 y 121 Z 90 z 122 Dari nilai karakter karakter ascii yang kita ketahui maka dapat kita gunakan persamaan untuk Pembentukan nilai hash menggunakan persamaan rolling hash: H (c1.ck) = c 1 *b (k-1) + c 2 * b (k-2) c (k-1) * b k + c k (2.1) Keterangan: c : nilai ASCII karakter b : basis bilangan prima k : banyak karakter Contoh pembentukan nilai hash menggunakan persamaan rolling hash dengan menggunakan k-gram= 7: H (tekniki) = ascii(t) * 2 (6) + ascii(e) * 2 (5) + ascii(k) * 2 (4) + ascii(n) * 2 (3) + ascii(i) * 2 (2) + ascii(k) * 2 (1) + ascii(i) * 2 (0) = 116 * * * * * * * 1 = = Keuntungan dengan persamaan rolling hash adalah untuk menentukan nilai hash selanjutnya dengan menggunakan persamaan: H (c2.ck+1) = (H (c1.ck) c 1 * b (k-1) ) * b + c (k + 1) (2.2) Keterangan: H (c1.ck) c1 : nilai hash sebelumnya : nilai ASCII karakter pertama b : basis bilangan prima c (k + 1) : nilai ascii karakter terakhir dengan gram akhir II-5
6 H (eknikin) = ( ascii(t) * 2 (6) ) * 2 + ascii(n) * 2 (0) = ( * 64) * * 1 = ( ) * * 1 = (6563 * 2) = = H (knikinf) = ( ascii(e) * 2 (6) ) * 2 + ascii(f) * 2 (0) = ( * 64) * * 1 = ( ) * * 1 = (6772 * 2) = = Membagi kedalam window tertentu. Langkah selanjutnya yaitu nilai hash yang telah terbentuk dibagi kedalam window-window yang telah kita tetapkan, yaitu dengan nilai window= 4, maka akan didapatkan: [ ] [ ] [ ] [ ] [ ] [ ] [ ] [.] [ ] [ ] [ ] [ ] [ ] [ ] [ ] II-6
7 4. Pemilihan beberapa nilai hash menjadi dokumen fingerprinting. Langkah selanjutnya yaitu dari window window yang kita dapat maka kita dapat memilih beberapa nilai hashterkecil yang akan menjadi fingerprintnya. [13236, 1] [13448, 4] [13501, 8] [13495, 11] [13138, 12] [13005, 15] [12418, 16] [12535, 17] [12751, 18] [12810,19] [12882, 21] [12818,24] [12956, 26] [13453,29] [14052,32] [13903,36] [13202,37] [13036,40] [13246,44] [12841,46] [12984,47] [12938,51] [13041,53] [13141,54] [13855,55] [13259,57] [12952,62] [12920,66] [13151,67] [13293,70] Feature Selection Pemilihan fitur kata merupakan tahap lanjut dari pengurangan dimensi pada proses transformasi teks. Walaupun tahap sebelumnya sudah melakukan penghapusan kata-kata yang tidak deskriptif, namun tidak semua kata-kata didalam dokumen memiliki arti penting. Oleh karena itu, untuk mengurangi dimensi, pemilihan hanya dilakukan terhadap kata-kata yang relevan yang benarbenar mempresentasikan isi dari suatu dokumen. Pada tahapan pemilihan fitur, dokumen-dokumen yang telah diproses melalui hasil winnowing akan mempunyai output berupa nilai fingerprint. Tahapan dalam feature selection adalah: 1. Reduksi Fingerprint, tahapan reduksi fingerprint adalah pengumpulan dan pengurutan, pengurangan nilai fingerprintduplikat yang sama dalam keseluruhan fingerprint dokumen dan pengurangan fingerprint yang single. Tahapan ini membutuhkan seluruh nilai fingerprint yang telah dikumpulkan dari masing masing dokumen Pattern Discovery Pattern discovery merupakan tahap penting untuk menemukan pola atau pengetahuan dari keseluruhan teks. Tindakan yang biasa dilakuakan pada tahap ini adalah operasi teks mining, dan biasanya menggunakan teknik-teknik data mining. Masukan awal dari proses data mining adalah suatu datateks dan menghasilkan keluaran berupa pola sebagai hasil intrepretasi atau evaluasi. Pada tahap ini dapat digunakan pemodelan yang terdapat dalam algoritma K-Meansyaitu untuk II-7
8 menemukan pola dalam pengklasteran dokumen dengan menggunakan Jaccard coefficient dan Euclidian distance Pada tahapan ini merupakan lanjutan dari tahapan Feature selection dimana proses penentuan Similaritas digunakan algoritma K-means Algoritma K-Means K-Means (Macqueen, 1967) merupakan algoritma clustering yang mudah untuk diimplementasikan.k-means termasuk kedalam algoritma partitional clustering, dan juga exclusive clustering yaitu satu data hanya masuk dalam satu cluster tertentu. Ide utama dari algoritma ini adalah menentukan jumlah cluster di awal dan mendefinisikan sejumlah k centroid yaitu satu centroid untuk setiap cluster (Han dan Kamber, 2006) Beberapa alternative perkembangan penerapan algoritma k-means yaitu dengan beberapa pengembangan teori-teori penghitungan yang terkait antara lain: distance space, untuk menghitung jarak antara data dengan centroidnya, beberapa distance space telah diimplementasikan dalam menghitung jarak antara data dengan centroid diantaranya ( Manhattan/city block) distance space, ( Euclidian) distance space, dan (Minkowski) distance space. 1. Manhattan Distance : Menurut konsep ini jarak dua titik x dan y dirumuskan : D(x,y)= ᵢ ᵢ (2.3) 2. Euclidian Distance : Jarak dua titik x dan y menurut Euclidean dirumuskan sebagai berikut: (2.4) D(i,j) =ǁi-jǁ= ( ᵢ )² 3. Minkowski Distance : D(x,y)=ǁ ǁ = (2.5) Dimana q 1 adalah parameter yang bisa diseleksi. Dalam hal ini q = 1, maka jarak Manhattan. Sedangkan q = 2, maka jarak tersebut menjadi jarak Euclidean. II-8
9 Selain menggunakan distance space dalam menghitung jarak dengan centroid, k-means juga dapat dihitung melalui tingkat similaritas terhadap fingerprint dokumen dengan centroidnya sehingga tingkat keakuratan similar dari dokumen dapat diketahui dengan pendekatan fungsi similaritas: 1. Cosine Similarity Sim (Di,Dj) = 2. Jaccard Coefficient Sim (Di,Dj) = 3. Pearson Correlation Sim (Di,Dj) = (2.6) (2.7) + 1 (2.8) Algoritma K-means ini sangat terkenal karena kemudahan dalam melakukan pengelompokkan dengan data yang besar dan sangat cepat untuk waktu komputasinya. Setiap data harus masuk kedalam cluster tertentu. Dan memungkinkan untuk berpindah cluster pada tahapan selanjutnya. Pada awal algoritma ini mengambil sebagian dari banyaknya komponen dari populasi untuk dijadikan pusat cluster awal. Pada step ini pusat cluster dipilih secara acak dari sekumpulan populasi dokumen. Berikutnya K-Means menguji masing-masing komponen di dalam populasi dan menandai komponen tersebut kesalah satu pusat cluster yang telah didefinisikan tergantungdari similarityterbesar antar komponen dari tiap-tiap cluster. Posisi pusat clusterakan dihitung kembali sampai semua komponen data digolongkan kedalam tiap-tiap pusatcluster dan terakhir akan terbentuk posisi pusat cluster baru. Algoritma K-Means pada dasarnya melakukan 2 proses yakni proses pendeteksian lokasi pusat tiap cluster dan proses pencarian anggota dari tiap-tiap cluster(barakhbah,2006). Dalam pembentukan sebuah clusterdi K-Means bergantung pada centorid. Dimana jumlah centroid ini yang akan menentukan berapa jumlah clusteryang akan dibuat. Penentuan centroidharus menggunakan metode yang terbaik. Karena pengelompokkan sangat bergantung pada baik tidaknya centroid awal yang dibentuk. Dari centroid awal yang telah dibentuk ini akan dilakukan perhitungan similarty antara dokumen dengan centroid. Jika proses tersebut selesai maka akan II-9
10 ada pengelompokkan sangat bergantung pada baik tidaknya centroid awal yang dibentuk. Jika proses tersebut selesai maka akan ada beberapa data yang masuk dalam beberapa anggota cluster. Dari anggota clustertersebut dilakukan perhitungan titik tengah atau centroid yang baru. Jika posisi dari anggota cluster yang baru tersebut berubah dari posisi centroid yang lama maka akan dilakukan proses iterasi ke duadimana langkah yang kita lakukan adalah mengulang kembali menghitung similarity dokumen terhadap centroid baru. Proses tersebut dilakukan sampai anggota centroid baru posisinya tidak mengalamipeubahan posisi dari centorid nya. K-Means merupakan salah satu metode pengkalsteran dengan pendekatan partisi yang mempartisi data yang ada kedalam bentuk satu atau lebih kelompok. Metode ini mempartisi data ke dalam kelompok sehingga data yang memiliki karakteristik yang sama dikelompokkan ke dalam satu kelompok, dan data yang mempunyai karakteristik yang berbeda dikelompokkan ke dalam kelompok lain. Dimana langkah utama dari algoritma k-means adalah: 1. Menentukan nilai k sebagai jumlah kelompok yang ingin dibentuk 2. Pembentukan Tabel master fingerprint, tahapan ini lanjutan dari reduksi fingerprint, nilai-nilai fingerprint yang telah di reduksi akan di bentuk ke dalam tabel master fingerprint. 3. Menentukan centroid (titik pusat cluster) awal secara random sebanyak kelompok dari seluruh dokumen. 4. Similarity, merupakan metode untuk menemukan pola yang sama dari keseluruhan fingerprint dokumen, dimana dari persamaan jaccard coefficient maka akan kita dapatkan persamaan similaritas: Sim (Di,Dj) = Keterangan: Fp(di) : Fingerprint Similar dokumen Fp(dj) : Fingerprint dokumen c : nilai centroid Di : Dok ke-i Dj : Centroid ke-i (2.7) II-10
11 semakin besar nilai jaccard coefficientnya maka nilai similarity terhadap centroid juga semakin besar dan dapat dikategorikan ke dalam cluster yang sama. Selain menggunakan persamaan similaritas, untuk menghitung jarak kedekatan fingerprint dengan centroid dapat menggunakan distance space yaitu persamaan Euclidian distance: (2.4) D(i,j) =ǁi-jǁ= ( ᵢ )² Keterangan: di : Token fingerprint ke-i padadok x dj : Token centroid ke-i pada dok y i : Fingerprint dokumen ke-i j : Centroid ke-i semakin kecil nilai jarak antara dokumen dengan centroidnya, maka nilai similarity nya akan semakin besar dan dapat dikategorikan ke dalam cluster yang sama. 5. Centroid baru, pada iterasi kedua proses K-means akan menentukan centroid baru dari similarity yang kita peroleh. Sehingga untuk menentukan centroid kedua maka digunakan persamaan: = (h(h, ) (2.9) Keterangan: (hf(h,c) : Jumlah dokumen yang ada didalam sebuah cluster n : Banyaknya dokumen dalam sebuah cluster Dimana centroid baru didapat dengan membagiseluruh anggota dokumen yang berada dalam 1 cluster dengan jumlah seluruh dokumen yang ada dalam cluster tersebut. 6. Kembali kelangkah keempat jika anggota cluster berubah posisi terhadap centroidnya. Beberapa permasalahan yang sering muncul pada saat menggunakan metode K-Means untuk melakukan pengelompokan data adalah: 1. Ditemukannya beberapa model clustering yang berbeda 2. Pemilihan jumlah cluster yang paling tepat II-11
12 3. Kegagalan untuk converge 4. Pendeteksian outliers 5. Bentuk masing-masing cluster 6. Masalah overlapping K-Means merupakan metode data clustering yang digolongkan sebagai metode pengklasifikasian yang bersifat unsupervised (tanpa arahan). Pengkategorian metode-metode pengklasifikasian data antara supervised dan unsupervised classification didasarkan pada adanya dataset yang data itemnya sudah sejak awal mempunyai label kelas dan dataset yang data itemnya tidak mempunyai label kelas. Untuk data yang sudah mempunyai label kelas, metode pengklasifikasian yang digunakan merupakan metode supervised classification dan untuk data yang belum mempunyai label kelas, metode pengklasifikasian yang digunakan adalah metode unsupervised classification. Selain masalah optimasi pengelompokan data ke masing-masing cluster, data clustering juga diasosiasikan dengan permasalahan penentuan jumlah cluster yang paling tepat untuk data yang dianalisa. Untuk kedua jenis K-Means, baik Hard K-Means dan Fuzzy K-Means, yang telah dijelaskan di atas, penentuan jumlah cluster untuk dataset yang dianalisa umumnya dilakukan secara supervised atau ditentukan dari awal oleh pengguna, walaupun dalam penerapannya ada beberapa metode yang sering dipasangkan dengan metode K-Means. Karena secara teori metode penentuan jumlah cluster ini tidak sama dengan metode pengelompokan yang dilakukan oleh K-Means, kevalidan jumlah cluster yang dihasilkan umumnya masih dipertanyakan. Melihat keadaan dimana pengguna umumnya sering menentukan jumlah cluster sendiri secara terpisah, baik itu dengan menggunakan metode tertentu atau berdasarkan pengalaman, di sini, kedua metode K-Means ini dapat disebut sebagai metode semisupervisedclassification, karena metode ini mengalokasikan data items ke masingmasing cluster secara unsupervised dan menentukan jumlah cluster yang paling sesuai dengan data yang dianalisa secara supervised. II-12
13 Gambar 2.2 Ilustrasi Pengelompokan K-Means Clustering Analisis cluster adalah pengorganisasian kumpulanpola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan ciri/sifat daripada pola-pola dalam cluster yang lainnya.clustering bermanfaat untuk melakukan analisis pola-pola yang ada, mengelompokkan, termasuk data mining,document retrieval, segmentasi citra, dan klasifikasi pola.metodologi clustering lebih cocokdigunakan untuk eksplorasi hubungan antar data untuk membuat suatu penilaian terhadap strukturnya. Tipe dari Clustering sendiri dapat dikelompokkan berdasarkan beberapa pendekatan: 1. Well separated cluster, sebuah cluster adalah sehimpunan titik yang memiliki kemiripan dengan titik lain dalam cluster daripad di cluster lain 2. Center Based, sebuah cluster yang memiliki anggota-anggota yang mirip dengan pusat cluster daripada pusat cluster lain 3. Density based, sebuah cluster adalah area padat titik yang dipisahkan dengan area kepadatan rendah dari area kepadatan tinggi lainnya. Analisa Cluster merupakan suatu teknik penyelesaian masalah yang bersifat unsupervised learning, yang berarti analisa cluster menemukan pola dari data dengan tidak memanfaatkan label yang sudah ada sebelumnya. II-13
14 Metode Clustering 1. Metode Partisi (Non Hierarki), dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi sehingga tidak ada data yang overlap dan satu data hanya memiliki satu cluster. Contohnya: algoritma K-Means. 2. Metode Hierarki, yang menghasilkan cluster yang bersarang artinya suatu data dapat memiliki cluster lebih dari satu. Metode ini terbagi menjadi dua yaitu buttom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila salah satu penggabungan atau pemecahan dilakukan pada tempat yang salah, tidak akan didapatkan cluster yang optimal. Contohnya: Agglomerative ( Findit, Proclus), Divisive Hierarchical Clustering (Clique, Mafia, Enclue) Klasifikasi Clustering Clustering secara luas diklasifikasikan menjadi dua yaitu hierarchical clustering dan non hierarchical clustering (Sambamurthy, 2003).Hierarchical clustering adalah sebuah metode hierarkis yang menciptakan komposisi hierarkis yang diterapkan pada objek data, sehingga akan menghasilkan cluster-cluster yang bersarang. Algoritma hierarchicalclustering ini mengatur seluruh objek dalam sebuah pohon untuk melihat hubungan antara setiap objek. Semakin tinggi urutan simpul dari pohon, maka semakin rendah tingkat kemiripan suatu objek. Algoritma ini dapat dilakukan dengan beberapa pendekatan yaitu agglomerative dan divisive. Pada pendekatan agglomerative, setiap objek pada awalnya berada dalam cluster masing-masing, kemudian setiap pasangan cluster yang memiliki kemiripan tinggi akan dikelompokkan kedalam satu cluster, sampai membentuk suatu hierarkis cluster. Sedangkan pada pendekatan divisive, akan terdapat sebuah cluster tunggal yang beranggotakan seluruh objek, kemudian dilakukan pemecahan menjadi subcluster. Contoh algoritma hierarchical clustering adalah HAC (Hierarchical Agglomerative Clustering). Non-hierarchical clustering, pada umumnya disebut algoritma partitional clustering, memberikan sejumlah n objek dan k yang merupakan jumlah dari II-14
15 cluster yang terbentuk. Algoritma partitional clustering mengolah objek ke dalam k-kelompok berdasarkan kriteria tertentu, dimana setiap kelompok merupakan representasi sebuah cluster, contoh algoritma partitional clustering adalah K- Means. Selain pembagian diatas, terdapat beberapa pembagian clustering berdasarkan cara pengelompokan data yaitu: 1. Exclusive Clustering Pada exclusive clustering objek yang telah masuk pada sebuah cluster tertentu, tidak akan masuk kedalam cluster lain. Hal ini dapat dilihat dari gambar 2.1 yaitu garis lurus pada bidang tersebut merupakan pemisah antar setiap objek. Salah satu contoh algoritma adalah K- Means (Adiningsih, 2007). Gambar 2.3 Exclusive Clustering (Aidiningsih, 2007) 2. Overlapping Clustering Overlapping clustering menggunakan fuzzy set dalam pengelompokan data sehingga setiap objek mungkin masuk dalam dua atau lebih cluster dengan derajat keanggotaan yang berbeda. Pada algoritma ini data akan disosiasikan terhadap nilai keanggotan yang sesuai. Salah satu contoh algoritma adalah Fuzzy C-means (Adiningsih, 2007). 3. Hierarchical Clustering Hierarchical clustering merupakan metode yang melakukan penggabungan antara dua cluster yang saling berdekatan. 4. Probabilitas Clustering Clustering ini menggunakan pendekatan probabalistik, salah satu contoh adalah algoritma Gaussians Mixture (Adiningsih, 2007). II-15
16 Gambar 2.4 Tahapan Clustering 2.3 Metode Pengukuran Performansi Nilai performansi adalah metode pengukuran yang digunakan untuk menunjukkan keberhasilan dari suatu informasi yang diproses, dan dapat diukur menggunakan tingkat relevansi suatu informasi dokumen teks yang ditemukan. Dokumen dokumen yang diukur berdasarkan kesamaan inputan teks berupa hasil cluster dokumen teks yang relevan antara dokumen dokumennya. Parameter yang digunakan dalam performansi sistem antara lain: 1. Precision (Ketepatan) Precision ialah perbandingan jumlah dokumen relevan yang didapat oleh sistem, dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. = 100 % (2.10) Keterangan: : Jumlah dokumen relevan : Banyaknya dokumen 2. Relevansi (rata-rata relevan) Relevansi adalah nilai rata-rata ketepatan hasil precision, dimana untuk mengukur hasil pengujian yang telah dilakukan. = (2.11) II-16
17 Keterangan: : Jumlah nilai precision : Banyaknya pengujian yang dilakukan II-17
ANALISIS CLUSTER PADA DOKUMEN TEKS
Budi Susanto ANALISIS CLUSTER PADA DOKUMEN TEKS Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 Tujuan Memahami konsep analisis clustering Memahami tipe-tipe data dalam clustering Memahami beberapa algoritma
Lebih terperinciANALISIS CLUSTER PADA DOKUMEN TEKS
Text dan Web Mining - FTI UKDW - BUDI SUSANTO 1 ANALISIS CLUSTER PADA DOKUMEN TEKS Budi Susanto (versi 1.3) Text dan Web Mining - FTI UKDW - BUDI SUSANTO 2 Tujuan Memahami konsep analisis clustering Memahami
Lebih terperinciTipe Clustering. Partitional Clustering. Hirerarchical Clustering
Analisis Cluster Analisis Cluster Analisis cluster adalah pengorganisasian kumpulan pola ke dalam cluster (kelompok-kelompok) berdasar atas kesamaannya. Pola-pola dalam suatu cluster akan memiliki kesamaan
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Pada penelitian ini ada beberapa tahapan penelitian yang akan dilakukan seperti terlihat pada gambar 3.1 berikut : Mulai Identifikasi Masalah Pengumpulan Data Analisa Aplikasi
Lebih terperinciBAB V IMPLEMENTASI DAN PENGUJIAN
BAB V IMPLEMENTASI DAN PENGUJIAN 5.1. Tahapan Implementasi Tahap implementasi ini dilakukan setalah tahap analisa dan perancangan selesai dilakukan. Dalam tahap implementasi ini akan dilakukan pengkodingan
Lebih terperinciBAB II LANDASAN TEORI. yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk
BAB II LANDASAN TEORI 2.1 Sistem Menurut Gondodiyoto (2007), sistem adalah merupakan suatu kesatuan yang terdiri dari komponen-komponen atau sub sistem yang berorientasi untuk mencapai suatu tujuan tertentu.
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA Pada bab ini, akan dibahas landasan teori mengenai pendeteksian kemiripan dokumen teks yang mengkhususkan pada pengertian dari keaslian dokumen, plagiarisme, kemiripan dokumen, dan
Lebih terperinciBAB 2 TINJAUAN PUSTAKA Klasifikasi Data Mahasiswa Menggunakan Metode K-Means Untuk Menunjang Pemilihan Strategi Pemasaran
BAB 2 TINJAUAN PUSTAKA 2.1 Tinjauan Pustaka Beberapa penelitian terdahulu telah banyak yang menerapkan data mining, yang bertujuan dalam menyelesaikan beberapa permasalahan seputar dunia pendidikan. Khususnya
Lebih terperinciBAB 2 LANDASAN TEORI. 2.1 Pengertian Text Mining
13 BAB 2 LANDASAN TEORI 2.1 Pengertian Text Mining Text Mining dapat juga diartikan sebagai penambangan data berupa teks yang bersumber dari dokumen untuk mencari karta-kata yang merupakan perwakilan isi
Lebih terperinciBAB III METODOLOGI PENELITIAN
BAB III METODOLOGI PENELITIAN Metodologi penelitian merupakan rangkaian dari langkah-langkah yang diterapkan dalam penelitian, secara umum dan khusus langkah-langkah tersebut tertera pada Gambar flowchart
Lebih terperinciTAKARIR. : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas
TAKARIR Data Mining Clustering Cluster Iteratif Random Centroid : Penggalian data : Mengelompokkan suatu objek yang memiliki kesamaan. : Kelompok atau kelas : Berulang : Acak : Pusat area KDD (Knowledge
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Faktor penentu bagi usaha atau bisnis apapun pada masa sekarang ini adalah kemampuan untuk menggunakan informasi seefektif mungkin. Penggunaan data secara tepat karena
Lebih terperinciProses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis. Bentuk yang paling umum digunakan adalah unsupervised learning
CLUSTERING DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk yang paling umum digunakan adalah unsupervised learning # Unsupervised learning
Lebih terperinciBAB 2 LANDASAN TEORI
7 BAB 2 LANDASAN TEORI Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan penerapan algoritma hierarchical clustering dan k-means untuk pengelompokan desa tertinggal.
Lebih terperinciPengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour
Pengelompokan Dokumen Menggunakan Winnowing Fingerprint dengan Metode K-Nearest Neighbour Suwanto Sanjaya 1, Ersad Alfarisy Absar 2 1,2 Teknik Informatika, UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas
Lebih terperinciBAB III ANALISIS DAN PERANCANGAN SISTEM
BAB III ANALISIS DAN PERANCANGAN SISTEM Pada pengembangan suatu sistem diperlukan analisis dan perancangan sistem yang tepat, sehingga proses pembuatan sistem dapat berjalan dengan lancar dan sesuai seperti
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
BAB III ANALISA DAN PERANCANGAN SISTEM Bab ini menjelaskan tentang analisa data, rancangan sistem, dan skenario pengujian. Bagian analisa data meliputi data penelitian, analisis data, data preprocessing.
Lebih terperinciClustering. Virginia Postrel
8 Clustering Most of us cluster somewhere in the middle of most statistical distributions. But there are lots of bell curves, and pretty much everyone is on a tail of at least one of them. We may collect
Lebih terperinciBAB 2 TINJAUAN PUSTAKA
BAB 2 TINJAUAN PUSTAKA 2.1. Data Mining Data Mining adalah proses pencarian pengetahuan dari suatu data berukuran besar melalui metode statistik, machine learning, dan artificial algorithm. Hal yang paling
Lebih terperinciDATA MINING DAN WAREHOUSE A N D R I
DATA MINING DAN WAREHOUSE A N D R I CLUSTERING Secara umum cluster didefinisikan sebagai sejumlah objek yang mirip yang dikelompokan secara bersama, Namun definisi dari cluster bisa beragam tergantung
Lebih terperinciPENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA
PENERAPAN ALGORITMA K-MEANS PADA KUALITAS GIZI BAYI DI INDONESIA Diajeng Tyas Purwa Hapsari Teknik Informatika STMIK AMIKOM Yogyakarta Jl Ring road Utara, Condongcatur, Sleman, Yogyakarta 55281 Email :
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1. Data Mining Data mining adalah bagian dari knowledge discovery di database yang menganalisa database berukuran besar untuk menemukan pola yang berguna pada data (Silberschatz,
Lebih terperinciCLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING)
CLUSTERING MENGGUNAKAN K-MEANS ALGORITHM (K-MEANS ALGORITHM CLUSTERING) Nur Wakhidah Fakultas Teknologi Informasi dan Komunikasi Universitas Semarang Abstract Classification is the process of organizing
Lebih terperinciCLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS
CLUSTERING PENCAPAIAN KARAKTER SISWA MENGGUNAKAN ALGORITMA K-MEANS Muhammad Toha, 1), I Ketut Edy Purnama 2) dan Surya Sumpeno 3) 1) Bidang Keahlian Telematika (Konsentrasi CIO) Jurusan Teknik Elektro
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI 2.1 Clustering Pada dasarnya clustering terhadap data adalah suatu proses untuk mengelompokkan sekumpulan data tanpa suatu atribut kelas yang telah didefinisikan sebelumnya, berdasarkan
Lebih terperinciPengenalan Pola. Klasterisasi Data
Pengenalan Pola Klasterisasi Data PTIIK - 2014 Course Contents 1 Konsep Dasar 2 Tahapan Proses Klasterisasi 3 Ukuran Kemiripan Data 4 Algoritma Klasterisasi Konsep Dasar Klusterisasi Data, atau Data Clustering
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI II.1 Text Mining Text Mining merupakan penerapan konsep dan teknik data mining untuk mencari pola dalam teks, proses penganalisaan teks guna menemukan informasi yang bermanfaat untuk
Lebih terperinciPENDAHULUAN. 1.1 Latar Belakang
DAFTAR TABEL Tabel 3-1 Dokumen Term 1... 17 Tabel 3-2 Representasi... 18 Tabel 3-3 Centroid pada pengulangan ke-0... 19 Tabel 3-4 Hasil Perhitungan Jarak... 19 Tabel 3-5 Hasil Perhitungan Jarak dan Pengelompokkan
Lebih terperinciMETODE CLUSTERING DENGAN ALGORITMA K-MEANS. Oleh : Nengah Widya Utami
METODE CLUSTERING DENGAN ALGORITMA K-MEANS Oleh : Nengah Widya Utami 1629101002 PROGRAM STUDI S2 ILMU KOMPUTER PROGRAM PASCASARJANA UNIVERSITAS PENDIDIKAN GANESHA SINGARAJA 2017 1. Definisi Clustering
Lebih terperinciBAB 1 KONSEP DATA MINING 2 Gambar 1.1 Perkembangan Database Permasalahannya kemudian adalah apa yang harus dilakukan dengan data-data itu. Sudah diket
Bab1 Konsep Data Mining POKOK BAHASAN: Konsep dasar dan pengertian Data Mining Tahapan dalam Data Mining Model Data Mining Fungsi Data Mining TUJUAN BELAJAR: Setelah mempelajari materi dalam bab ini, mahasiswa
Lebih terperinciPERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN
PERBANDINGAN METODE CLUSTERING MENGGUNAKAN METODE SINGLE LINKAGE DAN K - MEANS PADA PENGELOMPOKAN DOKUMEN Rendy Handoyo 1, R. Rumani M 2, Surya Michrandi Nasution 3 1,2,3 Gedung N-203, Program Studi Sistem
Lebih terperinciDATA MINING. Pertemuan 3. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi
DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 3 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2015 Definisi Set Data Set Data / Data Set / Himpunan Data Kumpulan
Lebih terperinciPenerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen
Penerapan Metode Winnowing Fingerprint dan Naive Bayes untuk Pengelompokan Dokumen Adi Radili 1, Suwanto Sanjaya 2 1,2 Teknik Informatika UIN Sultan Syarif Kasim Riau Jl. H.R. Soebrantas no. 155 KM. 18
Lebih terperinciClustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means
Clustering Terhadap Indeks Prestasi Mahasiswa STMIK Akakom Menggunakan K-Means Sri Redjeki Andreas 1), Andreas Pamungkas, Pamungkas Hastin 2), Hastin Al-fatah Al-fatah 3) 1)2)3) STMIK dzeky@akakom.ac.id
Lebih terperinciCLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS
CLUSTERING DOKUMEN TEKS BERDASARKAN FINGERPRINT BIWORD WINNOWING DENGAN MENGGUNAKAN METODE K-MEANS TUGAS AKHIR Diajukan Sebagai Salah Satu Syarat Untuk Memperoleh Gelar Sarjana Teknik Pada Jurusan Teknik
Lebih terperinciLABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA. Modul II CLUSTERING
LABORATORIUM DATA MINING JURUSAN TEKNIK INDUSTRI FAKULTAS TEKNOLOGI INDUSTRI UNIVERSITAS ISLAM INDONESIA Modul II CLUSTERING TUJUA PRAKTIKUM 1. Mahasiswa mempunyai pengetahuan dan kemampuan dasar dalam
Lebih terperinciPENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN
PENERAPAN ALGORITMA K-MEANS PADA SISWA BARU SEKOLAHMENENGAH KEJURUAN UNTUK CLUSTERING JURUSAN Fauziah Nur1, Prof. M. Zarlis2, Dr. Benny Benyamin Nasution3 Program Studi Magister Teknik Informatika, Universitas
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Data Mining Data Mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge)
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA A. Tinjauan Pustaka Pada penelitian yang dilakukan oleh (Chen, Sain, & Guo, 2012) berfokus untuk mengetahui pola penjualan, pelanggan mana yang paling berharga, pelanggan mana yang
Lebih terperinciJULIO ADISANTOSO - ILKOM IPB 1
KOM341 Temu Kembali Informasi KULIAH #9 Text Clustering (Ch.16 & 17) Clustering Pengelompokan, penggerombolan Proses pengelompokan sekumpulan obyek ke dalam kelas-kelas obyek yang memiliki sifat sama.
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Penelitian Terkait 2.1.1. Implementasi Opinion Mining Pernah dilakukan penelitian tentang opinion mining membahas tentang ekstraksi data opini publik pada perguruan tinggi.
Lebih terperinciKata kunci: Cluster, Knowledge Discovery in Database, Algoritma K-Means,
K- Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K-Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA A. Knowledge Discovery in Database (KDD) dan Data Mining Banyak orang menggunakan istilah data mining dan knowledge discovery in databases (KDD) secara bergantian untuk menjelaskan
Lebih terperinciANALISIS KLASTERING LIRIK LAGU INDONESIA
ANALISIS KLASTERING LIRIK LAGU INDONESIA Afdilah Marjuki 1, Herny Februariyanti 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank e-mail: 1 bodongben@gmail.com,
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
1 BAB I PENDAHULUAN 1.1. Latar Belakang Clustering adalah proses di dalam mencari dan mengelompokkan data yang memiliki kemiripan karakteristik (similarity) antara satu data dengan data yang lain. Clustering
Lebih terperinciBAB II TINJAUAN PUSTAKA DAN DASAR TEORI Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di
BAB II TINJAUAN PUSTAKA DAN DASAR TEORI 2.1. Tinjauan Pustaka Penelitian terkait metode clustering atau algoritma k-means pernah di lakukan oleh Muhammad Toha dkk (2013), Sylvia Pretty Tulus (2014), Johan
Lebih terperincicommit to user 5 BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori Text mining
BAB II TINJAUAN PUSTAKA 2.1 Dasar Teori 2.1.1 Text mining Text mining adalah proses menemukan hal baru, yang sebelumnya tidak diketahui, mengenai informasi yang berpotensi untuk diambil manfaatnya dari
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Text Mining Text mining merupakan proses penambangan data ( mining) yang berupa dokumen teks dengan tujuan mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat
Lebih terperinciSISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS
SISTEM PENDUKUNG KEPUTUSAN PENENTUAN PEMBERIAN BANTUAN BIAYA PENDIDIKAN MENGGUNAKAN ALGORITMA K-MEANS Sinawati ), Ummi Syafiqoh 2) ), 2) Sistem Informasi STMIK PPKIA Tarakanita Rahmawati Tarakan Jl Yos
Lebih terperinciIntegrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction
Integrasi Peringkas Dokumen Otomatis Dengan Penggabungan Metode Fitur dan Metode Latent Semantic Analysis (LSA) Sebagai Feature Reduction Junta Zeniarja 1, Abu Salam 2, Ardytha Luthfiarta 3, L Budi Handoko
Lebih terperinciPENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER
PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER I. PENDAHULUAN Mahasiswa merupakan salah satu aspek penting dalam evaluasi keberhasilan penyelenggaraan
Lebih terperinciAnalisis Perbandingan Algoritma Fuzzy C-Means dan K-Means
Analisis Perbandingan Algoritma Fuzzy C-Means dan K-Means Yohannes Teknik Informatika STMIK GI MDD Palembang, Indonesia Abstrak Klasterisasi merupakan teknik pengelompokkan data berdasarkan kemiripan data.
Lebih terperinciData Mining. Pengenalan Sistem & Teknik, Serta Contoh Aplikasi. Avinanta Tarigan. 22 Nov Avinanta Tarigan Data Mining
Data Mining Pengenalan Sistem & Teknik, Serta Contoh Aplikasi Avinanta Tarigan 22 Nov 2008 1 Avinanta Tarigan Data Mining Outline 1 Pengertian Dasar 2 Classification Mining 3 Association Mining 4 Clustering
Lebih terperinciMakalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014
2014 Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014 Bab 1. Data Mining 1.1 Pengertian Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1. Sistem Informasi Pengertian Sistem Informasi pada dasarnya merupakan hasil dari dua arti, yakni sistem dan informasi yang digabungkan. Berikut definisi sistem menurut para ahli
Lebih terperinciAPLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP
APLIKASI PENDETEKSI KEMIRIPANPADA DOKUMEN MENGGUNAKAN ALGORITMA RABIN KARP Inta Widiastuti 1, Cahya Rahmad 2, Yuri Ariyanto 3 1,2 Jurusan Elektro, Program Studi Teknik Informatika, Politeknik Negeri Malang
Lebih terperincidengan Algoritma K Means
K Pembentukan cluster dalam Knowledge Discovery in Database dengan Algoritma K Means Oleh: Sri Andayani Jurusan Pendidikan Matematika FMIPA UNY,email: andayani@uny.ac.id Abstrak Pembentukan cluster merupakan
Lebih terperinciDATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA
DATA MINING CLUSTERING DENGAN ALGORITMA FUZZY C-MEANS UNTUK PENGELOMPOKAN JADWAL KEBERANGKATAN DI TRAVEL PT. XYZ TASIKMALAYA Aseptian Nugraha, Acep Irham Gufroni, Rohmat Gunawan Teknik Informatika Fakultas
Lebih terperinciBAB IV ANALISIS DAN PERANCANGAN
BAB IV ANALISIS DAN PERANCANGAN 4.1. Analisa 4.1.1 Analisis Data Pada tahap analisa data ini akan dibahas mengenai citra CT Scan yang akan dilakukan proses segmentasi atau pengelompokan data. Data citra
Lebih terperinciBAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data
BAB III ANALISIS III.1 Analisis Konseptual Teknik Pengolahan Data Data sudah menjadi bagian penting dalam pengambilan keputusan. Data telah banyak terkumpul baik itu data transaksi perbankan, data kependudukan,
Lebih terperinciText Mining. Budi Susanto. Text dan Web Mining. Teknik Informatika UKDW Yogyakarta
Text Mining Budi Susanto Materi Pengertian Text Mining Pemrosesan Text Tokenisasi Lemmatization Vector Document Pengertian Text Mining Text mining merupakan penerapan konsep dan teknik data mining untuk
Lebih terperinciBAB IV ANALISA DAN PERANCANGAN
BAB IV ANALISA DAN PERANCANGAN Sebelum masuk dalam tahap pembuatan aplikasi, maka terlebih dahulu perlu dilakukan analisa dan perancangan terhadap aplikasi yang akan dibuat. Tahap analisa merupakan tahapan
Lebih terperinciBAB II TINJAUAN PUSTAKA
BAB II TINJAUAN PUSTAKA 2.1. Data Mining Dengan perkembangan pesat teknologi informasi termasuk diantaranya teknologi pengelolaan data, penyimpanan data, pengambilan data disertai kebutuhan pengambilan
Lebih terperinciNur Indah Pratiwi, Widodo Universitas Negeri Jakarta ABSTRAK
Klasifikasi Dokumen Karya Akhir Mahasiswa Menggunakan Naïve Bayes Classifier (NBC) Berdasarkan Abstrak Karya Akhir Di Jurusan Teknik Elektro Universitas Negeri Jakarta Nur Indah Pratiwi, Widodo Universitas
Lebih terperinciBudi Susanto Versi /08/2012. Teknik Informatika UKDW Yogyakarta
Budi Susanto Versi 1.0 29/08/2012 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web
Lebih terperinciBAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. menerapkan metode clustering dengan algoritma K-Means untuk penelitiannya.
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1 Tinjauan Pustaka Salah satu cara untuk mengetahui faktor nilai cumlaude mahasiswa Fakultas Teknik Universitas Muhammadiyah Yogyakarta adalah dengan menerapkan
Lebih terperinciIMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA
IMPLEMENTASI K NEAREST NEIGHBOR (KNN) PADA KLASIFIKASI ARTIKEL WIKIPEDIA INDONESIA Erik Hardiyanto 1, Faisal Rahutomo 2, Dwi Puspitasari 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika,
Lebih terperinciBAB 2 LANDASAN TEORI
BAB 2 LANDASAN TEORI Bab ini berisi penjelasan mengenai image clustering, pengukuran kemiripan dan pengukuran jarak, representasi citra, ruang warna, algoritma clustering, dan penelitian yang berhubungan.
Lebih terperinciBAB 3 LANDASAN TEORI
BAB 3 LANDASAN TEORI 3.1 Text Mining Text mining merupakan suatu teknologi untuk menemukan suatu pengetahuan yang berguna dalam suatu koleksi dokumen teks sehingga diperoleh tren, pola, atau kemiripan
Lebih terperinciBAB I PENDAHULUAN Latar Belakang
BAB I PENDAHULUAN Latar Belakang Kredit merupakan salah satu usaha sekunder yang dapat dilakukan untuk pemenuhan kebutuhan sehari-hari. Pada umumnya, proses kredit dapat dilayani melalui lembaga keuangan
Lebih terperinciDATA MINING. Pertemuan 4. Nizar Rabbi Radliya 3 SKS Semester 6 S1 Sistem Informasi
DATA MINING 3 SKS Semester 6 S1 Sistem Informasi Pertemuan 4 Nizar Rabbi Radliya nizar.radliya@yahoo.com Universitas Komputer Indonesia 2016 Similaritas dan Dissimilaritas Kemiripan (similarity) adalah
Lebih terperinciBAB I PENDAHULUAN. Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam
BAB I PENDAHULUAN 1.1 LATAR BELAKANG Saat ini, konsep data mining semakin dikenal sebagai tools penting dalam manajemen informasi karena jumlah informasi yang semakin besar jumlahnya. Data mining sendiri
Lebih terperinciPENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION
Konferensi Nasional Ilmu Sosial & Teknologi (KNiST) Maret 2016, pp. 590~595 PENERAPAN ALGORITMA K MEANS UNTUK PENENTUAN PENCOCOKAN PEWARNAAN CLUSTERING SECARA OTOMATIS PADA PRODUK FASHION 590 Indra Gunawan
Lebih terperinciAlgoritma Dasar. 4.1 Naive Bayes
4 Algoritma Dasar It is a capital mistake to theorize before one has data. Arthur Conan Doyle Sebelum masuk ke algoritma machine learning yang cukup modern/ matematis, kami akan memberi contoh algoritma
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Di dalam dunia pemrograman komputer, kode program (source code) adalah kumpulan deklarasi atau pernyataan dari bahasa pemrograman computer yang di tulis dan bisa dibaca
Lebih terperinciIMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING
IMPLEMENTASI DETEKSI OUTLIER PADA ALGORITMA HIERARCHICAL CLUSTERING Yoga Bhagawad Gita 1, Ahmad Saikhu 2 1,2 Jurusan Teknik Informatika, Fakultas Teknologi Informasi Institut Teknologi Sepuluh Nopember
Lebih terperinciPengenalan Pola. K-Means Clustering
Pengenalan Pola K-Means Clustering PTIIK - 2014 Course Contents 1 Definisi k-means 2 Algoritma k-means 3 Studi Kasus 4 Latihan dan Diskusi K-Means Clustering K-Means merupakan salah satu metode pengelompokan
Lebih terperinciPENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA
Artikel Skripsi PENGKLASIFIKASIAN DATA SEKOLAH PENGGUNA INTERNET PENDIDIKAN MENGGUNAKAN TEKNIK CLUSTERING DENGAN ALGORITMA K-MEANS STUDI KASUS PT TELKOM SURABAYA SKRIPSI Diajukan Untuk Memenuhi Sebagian
Lebih terperinciPENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS
Jurnal Ilmiah ILKOM Volume 8 mor (Agustus 16) ISSN: 87-1716 PENGELOMPOKAN MINAT BACA MAHASISWA MENGGUNAKAN METODE K-MEANS Widya Safira Azis 1 dan Dedy Atmajaya 1 safiraazis18@gmail.com dan dedy.atmajaya@umi.ac.id
Lebih terperinciDETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA
DETEKSI MAHASISWA BERPRESTASI DAN BERMASALAH DENGAN METODE K- MEANS KLASTERING YANG DIOPTIMASI DENGAN ALGORITMA GENETIKA Akmal Hidayat 1) & Entin Martiana 2) 1) Teknik Elektro Politeknik Bengkalis Jl.
Lebih terperinciTEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL
TEMU KEMBALI INFORMASI BERDASARKAN LOKASI PADA DOKUMEN YANG DIKELOMPOKKAN MENGGUNAKAN METODE CENTROID LINKAGE HIERARCHICAL Nadia Damayanti 1, Nur Rosyid Mubtada i, S.Kom, M.Kom 2, Afrida Helen S.T, M.Kom
Lebih terperinciBAB 3 PROSEDUR DAN METODOLOGI. menawarkan pencarian citra dengan menggunakan fitur low level yang terdapat
BAB 3 PROSEDUR DAN METODOLOGI 3.1 Permasalahan CBIR ( Content Based Image Retrieval) akhir-akhir ini merupakan salah satu bidang riset yang sedang berkembang pesat (Carneiro, 2005, p1). CBIR ini menawarkan
Lebih terperinci2. Tinjauan Pustaka. Gambar 2-1 : Knowledge discovery in database
2. Tinjauan Pustaka 2.1 Data Mining Data mining merupakan ilmu yang mempelajari tentang proses ekstraksi informasi yang tersembunyi dari sekumpulan data yang berukuran sangat besar dengan menggunakan algoritma
Lebih terperinciBAB I PENDAHULUAN 1.1 Latar Belakang
BAB I PENDAHULUAN 1.1 Latar Belakang Kemajuan teknologi informasi dan komunikasi tidak hanya membawa dampak positif, tetapi juga membawa dampak negatif, salah satunya adalah tindakan plagiarisme (Kharisman,
Lebih terperinciBAB I PENDAHULUAN. penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa
BAB I PENDAHULUAN 1.1 Latar Belakang Masalah Dengan kemajuan teknologi yang sangat pesat ini sudah banyak aplikasi penunjang Al-Quran untuk memudahkan untuk mempelajarinya, yang bisa disebut atau di artikan
Lebih terperinciBAB II LANDASAN TEORI
BAB II LANDASAN TEORI 2.1 Klasifikasi Klasifikasi merupakan suatu pekerjaan menilai objek data untuk memasukkannya ke dalam kelas tertentu dari sejumlah kelas yang tersedia. Dalam klasifikasi ada dua pekerjaan
Lebih terperinciBAB IV PREPROCESSING DATA MINING
BAB IV PREPROCESSING DATA MINING A. Konsep Sebelum diproses data mining sering kali diperlukan preprocessing. Data preprocessing menerangkan tipe-tipe proses yang melaksanakan data mentah untuk mempersiapkan
Lebih terperinciPENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA
PENINGKATAN KINERJA ALGORITMA K-MEANS DENGAN FUNGSI KERNEL POLYNOMIAL UNTUK KLASTERISASI OBJEK DATA Heri Awalul Ilhamsah Jurusan Teknik Industri Universitas Trunojoyo Madura Kampus Universitas Trunojoyo
Lebih terperinciBab 2 Tinjauan Pustaka
Bab 2 Tinjauan Pustaka 2.1 Penelitian Terdahulu Adapun penelitian terdahulu yang berkaitan dalam penelitian ini berjudul Penentuan Wilayah Usaha Pertambangan Menggunakan Metode Fuzzy K-Mean Clustering
Lebih terperinciAbidah Elcholiqi, Beta Noranita, Indra Waspada
Abidah Elcholiqi, Beta Noranita, Indra Waspada PENENTUAN BESAR PINJAMAN DI KOPERASI SIMPAN PINJAM DENGAN ALGORITMA K-NEAREST NEIGHBOR (Studi Kasus di Koperasi Simpan Pinjam BMT Bina Insani Pringapus) Abidah
Lebih terperinciSTUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA. Abstract
STUDI KOMPARATIF PENERAPAN METODE HIERARCHICAL, K-MEANS DAN SELF ORGANIZING MAPS (SOM) CLUSTERING PADA BASIS DATA Undang Syaripudin 1, Ijang Badruzaman 2, Erwan Yani 3, Dede K 4, M. Ramdhani 5 1, 2 Teknik
Lebih terperinciSEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA
SEGMENTASI CITRA MENGGUNAKAN K-MEANS DAN FUZZY C- MEANS DENGAN BERBAGAI RUANG WARNA Kamil Malik Jurusan Teknik Informatika STT Nurul Jadid Paiton nomor1001@gmail.com Andi Hutami Endang Jurusan Teknik Informatika
Lebih terperinciPENENTUAN NOMINASI CALON PESERTA PROGRAM PENYIAPAN CALON KEPALA SEKOLAH MENGGUNAKAN METODE K-MEANS CLUSTERING BERBASIS WEKA
PENENTUAN NOMINASI CALON PESERTA PROGRAM PENYIAPAN CALON KEPALA SEKOLAH MENGGUNAKAN METODE K-MEANS CLUSTERING BERBASIS WEKA Agustin Sri Murdiana 1), I Ketut Eddy Purnama 2), dan Surya Sumpeno 3) Program
Lebih terperinciBAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan
BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI 2.1. Tinjauan Pustaka Sistem data mining akan lebih efektif dan efisiensi dengan komputerisasi yang tepat. Sistem data mining mampu memberikan informasi yang
Lebih terperinciTeknik Informatika UKDW Yogyakarta
Budi Susanto Versi 1.1 15/01/2013 1 Memahami pengertian dari text mining dan web mining Memahami latar belakang perlunya pengolahan dokumen teks dan web Memahami arsitektur dasar aplikasi text dan web
Lebih terperinciEKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN
EKSTRAKSI FITUR SITUS BERITA ONLINE UNTUK KALEIDOSKOP BERITA TAHUNAN Afri Yosela Putri 1, Faisal Rahutomo 2, Ridwan Rismanto 3 1, 2, 3 Jurusan Teknologi Informasi, Program Studi Teknik Informatika, Politeknik
Lebih terperinciTidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan
Terdapat banyak jenis pola: Pola visual Pola temporal Pola logikal Tidak ada tepat satu teori untuk menyelesaikan problem pengenalan pola Terdapat model standar yang dapat dijadikan teori acuan Statistik
Lebih terperinciHIERARCHICAL AGGLOMERATIVE CLUSTERING UNTUK PENGELOMPOKAN SKRIPSI MAHASISWA
HIERARCHICAL AGGLOMERATIVE CLUSTERING UNTUK PENGELOMPOKAN SKRIPSI MAHASISWA Herny Februariyanti 1, Dwi Budi Santoso 2 1,2 Program Studi Sistem Informasi, Fakultas Teknologi Informasi, Universitas Stikubank,
Lebih terperinciKOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE
KOMBINASI ALGORITMA AGGLOMERATIVE CLUSTERING DAN K-MEANS UNTUK SEGMENTASI PENGUNJUNG WEBSITE Yudha Agung Wirawan, Dra.Indwiarti,M.Si, Yuliant Sibaroni,S.SI., M,T Program Studi Ilmu Komputasi Fakultas Informatika
Lebih terperinciBAB III ANALISA DAN PERANCANGAN SISTEM
3.1 Persiapan Data BAB III ANALISA DAN PERANCANGAN SISTEM Dalam pengerjaan tugas akhir ini data yang digunakan adalah kalimat tanya Berbahasa Indonesia, dimana kalimat tanya tersebut diambil dari soal-soal
Lebih terperinci