Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

Transkripsi

1 2014 Makalah DATA MINING UNIVERSITAS MUHAMMADIYAH SIDOARJO TITIS FITRIA 6B PAGI 3/11/2014

2 Bab 1. Data Mining 1.1 Pengertian Data Mining Data Mining adalah kegiatan yang meliputi pengumpulan dan penggunaan database untuk menentukan suatu pola pada data set yang jumlahnya banyak.. Perangkat lunak ini mampu menemukan pola-pola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa mendatang. Data mining sering dikatakan berurusan dengan penemuan pengetahuan dalam basis data. 1.2 Konsep dasar a. Bagaimana Data Mining Bekerja Data mining bekerja untuk menemukan pola-pola tertentu dalam data. Data mining cerdas menghasilkan informasi dari datawarehouse yang tidak dapat divisualisasikan oleh laporan-laporan dan query. b. Dimana langkah-langkah untuk melakukan data mining adalah sebagai berikut : 2

3 -Data cleaning (untuk menghilangkan noise data yang tidak konsisten) Data integration (di mana sumber data yang terpecah dapat disatukan) - Data selection (di mana data yang relevan dengan tugas analisis dikembalikan ke dalam database) - Data transformation (di mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa atau operasi agresi) - Data mining (proses esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data) - Pattern evolution (untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa tindakan yang menarik) - Knowledge presentation (di mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah ditambang kpada user). Arsitektur dari data mining yang khas memiliki beberapa komponen utama yaitu : - Database, data warehouse, atau tempat penyimpanan informasi lainnya. - Server database atau data warehouse. - Knowledge base - Data mining engine. - Pattern evolution module. - Graphical user interface. Bab 2. Web Mining 2.1 Pengertian Web mining adalah sebuah integrasi beberapa teknologi, seperti data mining, statistik, informatika, dan sebagainya (Jicheng, 1999). Web mining adalah suatu aktifitas untuk menidentifikasi pola p yang terkandung dalam sebuah koleksi dokumen C, yang dapat dituliskan sebagai pemetaan. Definisi tersebut di atas menunjukkan bahwa Web mining mempunya kemiripan dengan data mining. Tetapi Web mining memiliki karakteristik khusus, antara lain adalah sumber yang digunakan adalah dokumen web. Selain itu pola yang dapat diperoleh dari Web mining adalah isi dari dokumen web atau struktur dari Web, sebab sebuah dokumen Web berisi informasi dan hyperlink. 3

4 2.2 Konsep Dasar Penelitian web mining terintegrasi dengan berbagai macam penelitian disiplin ilmu pengetahuan lainnya seperti DataBase (DB), Data Mining, Information Retrieval (IR), Machine Learning (ML), Natural Language Process (NLP). Web mining dapat dibagi menjadi tiga kategori utama, yaitu: content mining, usage mining, dan structure mining. : 4

5 Bab 3. Text Mining 3.1 Pengertian Text Mining Text mining adalah salah satu bidang khusus dari data mining. Sesuai dengan buku The Text Mining Handbook, text mining dapat didefinisikan sebagai suatu proses menggali informasi dimana seorang user berinteraksi dengan sekumpulan dokumen menggunakan tools analisis yang merupakan komponenkomponen dalam data mining yang salah satunya adalah kategorisasi. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur. Adapun tugas khusus dari text mining antara lain yaitu pengkategorisasian teks (text categorization) dan pengelompokan teks (text clustering). 3.2 Konsep Dasar text mining Permasalahan yang dihadapi pada text mining sama dengan permasalahan yang terdapat pada data mining, yaitu jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data noise. Perbedaan di antara keduanya adalah pada data yang digunakan. Pada data mining, data yang digunakan adalah structured data, sedangkan pada text mining, data yang digunakan text mining pada umumnya adalah unstructured data, atau minimal semistructured. Hal ini menyebabkan adanya tantangan tambahan pada text mining yaitu struktur text yang complex dan tidak lengkap, arti yang tidak jelas dan tidak standard, dan bahasa yang berbeda ditambah translasi yang tidak akurat. Koleksi Dokumen Salah satu elemen kunci dari text mining adalah kumpulan dokumen yang berbasis teks. Pada prakteknya, text mining ditujukan untuk menemukan pola dari sekumpulan dokumen yang jumlahnya sangat besar dan bisa mencapai jumlah ribuan bahkan sampai jutaan. Koleksi dokumen bisa statis, dimana dokumen tidak berubah, atau dinamis, dimana dokumen selalu diupdate sepanjang waktu. Representasi feature pada dokumen 5

6 Algoritma yang digunakan pada text mining, biasanya tidak hanya melakukan perhitungan hanya pada dokumen, tetapi pada juga feature. Empat macam feature yang sering digunakan: 1. Character, merupakan komponan individual, bisa huruf, angka, karakter spesial dan spasi, merupakan block pembangun pada level paling tinggi pembentuk semantik feature, seperti kata,term dan concept.pada umumnya, representasi character-based ini jarang digunakan pada beberapa teknik pemrosesan teks. 2. Words. 3. Terms merupakan single word dan frasa multiword yang terpilih secara langsung dari corpus. Representasi term-based dari dokumen tersusun dari subset term dalam dokumen. 4. Concept, merupakan feature yang di-generate dari sebuah dokumen secara manual, rule-based, atau metodologi lain. Pada tugas akhir ini, concept di-generate dari argument atau verb yang sudah diberi label pada suatu dokumen. Text Preprocessing Struktur data yang baik dapat memudahkan proses komputerisasi secara otomatis. Pada text mining, informasi yang akan digali berisi informasi-informasi yang strukturnya sembarang. Oleh karena itu, diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhannya untuk proses dalam data mining, yang biasanya akan menjadi nilai-nilai numerik. Proses ini sering disebut Text Preprocessing. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. Ekstraksi Dokumen 6

7 Case folding adalah mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf a sampai dengan z yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. Tahap tokenizing / parsing adalah tahap pemotongan string input berdasarkan tiap kata yang menyusunnya. Contoh dari tahap ini adalah sebagai berikut: Tahap filtering adalah tahap mengambil kata - kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Stoplist / stopword adalah katakata yang tidak deskriptif yang dapat dibuang dalam pendekatan bag-of-words. Contoh stopwords adalah yang, dan, di, dari dan seterusnya. Contoh dari tahapan ini adalah sebagai berikut: 7

8 Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Tahap ini kebanyakan dipakai untuk teks berbahasa inggris dan lebih sulit diterapkan pada teks berbahasa Indonesia. Hal ini dikarenakan bahasa Indonesia tidak memiliki rumus bentuk baku yang permanen. Contoh dari tahapan ini pada teks berbahasa inggris adalah sebagai berikut: Bab 4. Sistem Pakar 4.1 Pengertian sistem pakar menurut para ahli Menurut Martin dan Oxman " Sistem pakar adalah sistem berbasis computer yang menggunakan pengetahuan, fakta, dan teknik penalaran dalam memecahkan masalah, yang biasanya hanya dapat diselesaikan oleh seorang pakar dalam bidang tertentu. Menurut Ignizio " Sistem pakar merupakan bidang yang dicirikan oleh system berbasis pengetahuan (Knowledge Base System), memungkinkan adanya komponen untuk berpikir dan mengambil kesimpulan dari sekumpulan kaidah 4.2 Konsep dasar Sistem Pakar Menurut Efraim Turban, konsep dasar sistem pakar mengandung beberapa hal yang di antaranya: a) Keahlian Merupakan suatu kelebihan penguasaan pengetahuan di bidang tertentu yang diperoleh dari pelatihan, membaca atau pengalaman. Contoh bentuk pengetahuan ; Strategistrategi global untuk menyelesaikan masalah b) Ahli (Pakar) 8

9 Merupakan seseorang yang memiliki pengetahuan, penilaian, pengalaman, metode tertentu, serta mampu menerapkan keahlian dalam memberikan advise untuk pemecahan persoalan, serta mampu menjelaskan suatu tanggapan, mempelajari hal-hal baru seputar topik permasalahan, mengenali & merumuskan permasalahan, menyusun kembali pengetahuan jika dipandang perlu, memecah aturan-aturan jika dibutuhkan, dan mampu menentukan relevan tidaknya keahlian mereka. c) Pengalihan Keahlian Merupakan pengalihan keahlian dari para ahli ke komputer untuk kemudian dialihkan lagi ke orang lain yang bukan ahli, dimana pengetahuan yang disimpan di komputer ini disebut dengan nama basis pengetahuan. Ada 2 tipe pengetahuan, yaitu: fakta dan prosedur (biasanya berupa aturan). d) Inferensi Kemampuan untuk melakukan penalaran dengan menggunakan pengetahuan yang ada untuk menghasilkan suatu kesimpulan atau hasil akhir. dengan menggunakan motor interafe yang merupakan permodelan proses berfikir dan bernalar layaknya manusia. e) Aturan Sebagian besar sistem pakar dibuat dalam bentuk rule-based system, dimana pengetahuan disimpan dalam bentuk aturan-aturan yang biasanya berbentuk IF-THEN f) Kemampuan Menjelaskan Kemampuan untuk menjelaskan dan merekomendasi, yang membedakan sistem pakar dengan sistem konvensional. Diagram Struktur Sistem Pakar 9

10 Bab 5. Decision Tree 5.1 Pengertian Decision Tree Decision tree (pohon keputusan) adalah alat pendukung keputusan yang menggunakan pohon. Seperti grafik atau model keputusan dan kemungkinan konsekuensi mereka, termasuk hasil peristiwa kebetulan, biaya sumber daya, dan utilitas. Decision tree biasanya digunakan dalam operations research (penelitian operasional), khususnya dalam decision analysis (analisis keputusan), untuk membantu mengidentifikasi strategi yang paling mungkin untuk mencapai tujuan. Lain yang menggunakan decision tree adalah sebagai alat deskriptif untuk menghitung probabilitas kondisional. 5.2 Konsep dasar Dalam analisis keputusan, sebuah Decision tree digunakan sebagai visual dan alat pendukung keputusan analisis, di mana nilai-nilai yang diharapkan (atau utilitas yang diharapkan) dari alternatif bersaing dihitung. Decision Tree terdiri dari 3 jenis node: 10

11 1. Decision nodes umum diwakili oleh kuadrat 2. Chance nodes diwakili oleh kalangan 3. End nodes diwakili oleh segitiga Ditarik dari kiri ke kanan, Decision Tree hanya burst nodes (membelah jalan) tapi tidak ada sink nodes (konvergen jalan). Oleh karena itu, digunakan secara manual, mereka dapat tumbuh sangat besar dan kemudian sering kali sulit untuk menarik sepenuhnya dengan tangan. Bab 6. Clustering 6.1 Pengertian Clustering merupakan teknik yang umum digunakan dalam menganalisa data statistik untuk berbagai bidang, misalnya machine learning, pattern analysis, image analysis, information retrieval dan bio informatika. 6.2 Konsep dasar Clustering Dengan Pendekatan Partisi K-Means Salah satu metode yang banyak digunakan dalam melakukan clustering dengan partisi ini adalah metode k-means. Secara umum metode k-means ini melakukan proses pengelompokan dengan prosedur sebagai berikut: Tentukan jumlah cluster Alokasikan data secara random ke cluster yang ada Hitung rata-rata setiap cluster dari data yang tergabung di dalamnya Alokasikan kembali semua data ke cluster terdekat 11

12 Ulang proses nomor 3, sampai tidak ada perubahan atau perubahan yang terjadi masih sudah di bawah treshold Clustering dengan Pendekatan Hirarki Clustering dengan pendekatan hirarki mengelompokkan data yang mirip dalam hirarki yang sama dan yang tidak mirip di hirarki yang agak jauh. Ada dua metode yang sering diterapkan yaitu agglomerative hieararchical clustering dan divisive hierarchical clustering. Agglomerative melakukan proses clustering dari N cluster menjadi satu kesatuan cluster, dimana N adalah jumlah data, sedangkan divisive melakukan proses clustering yang sebaliknya yaitu dari satu cluster menjadi N cluster. Beberapa metode hierarchical clustering yang sering digunakan dibedakan menurut cara mereka untuk menghitung tingkat kemiripan. Ada yang menggunakan Single Linkage, Complete Linkage, Average Linkage, Average Group Linkage dan lainlainnya. Seperti juga halnya dengan partition-based clustering, kita juga bisa memilih jenis jarak yang digunakan untuk menghitung tingkat kemiripan antar data. Salah satu cara untuk mempermudah pengembangan dendogram untuk hierarchical clustering ini adalah dengan membuat similarity matrix yang memuat tingkat kemiripan antar data yang dikelompokkan. Tingkat kemiripan bisa dihitung dengan berbagai macam cara seperti dengan Euclidean Distance Space. Berangkat dari similarity matrix ini, kita bisa memilih lingkage jenis mana yang akan digunakan untuk mengelompokkan data yang dianalisa. Bab 7. Association 7.1 pengertian Association Teknik Association adalah metode data mining digunakan secara luas dan mengarah ke penemuan yang menarik hubungan antara variabel-variabel seperti yang ditemukan di gudang data di bawah pemeriksaan. Data penambang menetapkan formula yang disebut "aturan asosiasi". Dia kemudian memprediksi model masa depan dan bertindak berdasarkan model untuk mendapatkan informasi penting. Sebagai contoh mengambil kasus gelar akademik untuk spesialisasi. Jika seorang mahasiswa opt-in 12

13 untuk program tertentu maka mungkin ada probabilitas tinggi bahwa ia juga dapat memilih spesialisasi yang relevan di masa depan untuk meningkatkan peluang karirnya. 7.2 Konsep Dasar Association Bentuk Dasar Association Rule Ada beberapa simbol yang akan membantu untuk menerapkan association rule, yaitu: Association rule: implikasi yang dimisalkan dengan bentuk X -> Y, dimana X dan Y saling disjoin (X Y) Support count(σ(x)): jumlah transaksi yang memuat itemset tertentu Support (s(x->y)): tingkat intensitas kemunculan gabungan rule(x U Y) pada association rule pada seluruh data set Confidence(c(X->Y)): tingkat intensitas kemunculan item Y pada transaksi yang memuat X Rumus support dan confidence: Kegunaan dari support itu sendiri adalah untuk mengukur tingkat intensitas kemunculan suatu rule, dimana jika support yang dimiliki rendah, maka akan besar kemungkinan rendah juga tingkat keuntungan yang didapatkan dari item-item yang ada pada rule tersebut. Sedangkan kegunaan dari confidence adalah untuk mengukur tingkat kebenaran(reability) dari kesimpulan yang diambil oleh rule yang dibuat. Pada implikasi X->Y, jika nilai confidence rendah maka kemungkinan munculnya Y yang memuat X semakin rendah pula. Bab 8. Classification 8.1 pengertian 13

14 Classification adalah metode yang paling umum pada data mining. Persoalan bisnis sperti Churn Analysis, dan Risk Management biasanya melibatkan metode Classification. Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini butuh untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute. Class adalah attribute CollegePlans yang berisi dua pernyataan, Yes dan No, perhatikan ini. Sebuah Classification Model akan menggunakan atribut lain dari kasus tersebut (input attribut; yaitu kolom IQ, Gender, ParentIncome, dan ParentEncouragement) untuk dapat menentukan pola (pattern) class (Output Attribute; yaitu Kolom CollegePlans yang berisi Yes atau No). Algoritma Data Mining yang membutuhkan variabel target untuk belajar (sampai mendapatkan rule / pola yang berlaku pada data tersebut) kita standarkan dengan sebuthan dengan Supervised Algorithm. Bab 9. Algoritma Bayes 9.1 Pengertian Naïve Bayes adalah salah satu algoritma pembelajaran induktif yang paling efektif dan efisien untuk machine learning dan data mining. Klasifikasi adalah tugas yang penting dalam data mining, dalam klasifikasi, sebuah pengklasifikasi dibuat dari sekumpulan data latih dengan kelas yang telah ditemukan sebelumnya. 9.2 Konsep dasar A. Konsep Dasar dan Definisi Metode Bayes Metode Find-S tidak dapat digunakan untuk data yang tidak konsisten dan data yang bias, sehingga untuk bentuk data semacam ini salah satu metode sederhana yang dapat digunakan adalah metode bayes. Metode Bayes merupakan pendekatan statistic untuk melakukan inferensi induksi pada persoalan klasifikasi. Pertama kali dibahas terlebih dahulu tentang konsep 14

15 dasar dan definisi pada Teorema Bayes, kemudian menggunkan teorema ini untuk melakukan klasifikasi dalam Data Mining. Metode Bayes menggunakan propabilitas bersyarat sebagai dasarnya. Dalam ilmu probabilitas bersyarat dinyatakan sebagai: Probabilitas X di dalam Y adalah probabilitas inteseksi X dan Y dari probabilitas Y, atau dengan bahasa lain P(X Y) adalah prosentase banyaknya X di dalam Y. Probabilitas bersyarat dalam data diilustrasikan pada contoh berikut. Banyaknya data berolah-raga=ya adalah 4 dari 6 data maka dituliskan P(olahraga)= 4/6. 15

16 Banyaknya data cerah dan berolah-raga adalah 4 dari 6 data, maka dituliskan P(cuaca=cerah dan Olahraga=ya)= 4/6. Dari informasi tersebut, maka probabilitas cuaca cerah pada saat olahraga adalah: Bab 10 Algoritma Apriori 10.1 Pengertian Algoritma Apriori adalah algoritma paling terkenal untuk menemukan pola frekuensi tinggi. Pola frekuensi tinggi adalah pola-pola item di dalam suatu database yang memiliki frekuensi atau support di atas ambang batas tertentu yang disebut dengan istilah minimum support Konsep dasar Algoritma Apriori dibagi menjadi beberapa tahap yang disebut iterasi atau pass. Tiap iterasi menghasilkan pola frekuensi tinggi dengan panjang yang sama dimulai dari pass pertama yang menghasilkan pola frekuensi tinggi dengan panjang satu. Iterasi kedua menghasilkan 2-itemset yang tiap set-nya memiliki dua item. Pertama dibuat kandidat 2-itemset dari kombinasi semua 1-itemset. Lalu untuk tiap kandidat 2-itemset ini dihitung support-nya dengan men-scan database. Support disini artinya jumlah transaksi dalam database yang mengandung kedua item dalam kandidat 2-itemset. Setelah support dari semua kandidat 2-itemset didapatkan, kandidat 2-itemset yang memenuhi syarat minimum support dapat ditetapkan sebagai 2-itemset yang juga merupakan pola frekuensi tinggi dengan panjang 2. Untuk selanjutnya pada iterasi ke-k dapat dibagi lagi menjadi beberapa bagian : 1. Pembentukan kandidat itemset, Kandidat k-itemset dibentuk dari kombinasi (k-1)- itemset yang didapat dari iterasi sebelumnya. Satu ciri dari algoritma Apriori adalah adanya pemangkasan kandidat k-itemset yang subset-nya yang berisi k-1 item tidak termasuk dalam pola frekuensi tinggi dengan panjang k-1 2. Penghitungan support dari tiap kandidat k-itemset. Support dari tiap kandidat k-itemset didapat dengan men-scan database untuk menghitung jumlah transaksi yang 16

17 memuat semua item di dalam kandidat k-itemset tsb. Ini adalah juga ciri dari algoritme Apriori dimana diperlukan penghitungan dengan scan seluruh database sebanyak k- itemset terpanjang. 3. Tetapkan pola frekuensi tinggi. Pola frekuensi tinggi yang memuat k item atau k-itemset ditetapkan dari kandidat k-itemset yang support-nya lebih besar dari minimum support. 4. Bila tidak didapat pola frekuensi tinggi baru maka seluruh proses dihentikan. Bila tidak, maka k ditambah satu dan kembali ke bagian 1. Pseudocode dari algoritma Apriori dapat dilihat di Gambar berikut : Bab 11 Algoritma K-Means 11.1 Pengertian K-Means merupakan metode klasterisasi yang paling terkenal dan banyak digunakan di berbagai bidang karena sederhana, mudah diimplementasikan, memiliki kemampuan untuk mengklaster data yang besar, mampu menangani data outlier, dan kompleksitas waktunya linear O(nKT) dengan n adalah jumlah dokumen, K adalah jumlah kluster, dan T adalah jumlah iterasi. K-means merupakan metode pengklasteran secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Dengan partitioning secara iteratif, KMeans mampu meminimalkan rata-rata jarak setiap data ke klasternya. Metode ini dikembangkan oleh Mac Queen pada tahun Konsep dasar 17

18 Dasar algoritma K-means adalah sebagai berikut : 1. Tentukan nilai k sebagai jumlah klaster yang ingin dibentuk. 2. Bangkitkan k centroid (titik pusat klaster) awal secara random. 3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek yaitu Euclidean Distance dan kesamaan Cosine. 4. Kelompokkan setiap data berdasarkan jarak terdekat antara data dengan centroidnya. 5. Tentukan posisi centroid baru ( k C ) dengan cara menghitung nilai rata-rata dari data-data yang ada pada centroid yang sama. Dimana k n adalah jumlah dokumen dalam cluster k dan i d adalah dokumen dalam cluster k. 6. Kembali ke langkah 3 jika posisi centroid baru dengan centroid lama tidak sama. Adapun karakteristik dari algoritma K-Means salah satunya adalah sangat sensitif dalam penentuan titik pusat awal klaster karena K-Means membangkitkan titik pusat klaster awal secara random. Pada saat pembangkitan awal titik pusat yang random tersebut mendekati solusi akhir pusat klaster, K-Means mempunyai posibilitas yang tinggi untuk menemukan titik pusat klaster yang tepat. Sebaliknya, jika awal titik pusat tersebut jauh dari solusi akhir pusat klaster, maka besar kemungkinan ini menyebabkan hasil pengklasteran yang tidak tepat. Akibatnya K-Means tidak menjamin hasil pengklasteran yang unik. Inilah yang menyebabkan metode K-Means sulit untuk mencapai optimum global, akan tetapi hanya minimum lokal. Selain itu, algoritma K- Means hanya bisa digunakan untuk data yang atributnya bernilai numeric. Bab 12. Sequential Pattern 12.1 pengertian Terdapat: Database sequence Minimum menetapkan user yang mendukung(support), minsup Task: 18

19 Menemukan semua subsequence dengan user yang mendukup minsup 12.2 Konsep dasar Contoh : Sequential Pattern Mining Object Timestamp Events A 1 1,2,4 A 2 2,3 A 3 5 B 1 1,2 B 2 2,3,4 C 1 1, 2 C 2 2,3,4 C 3 2,4,5 D 1 2 D 2 3, 4 D 3 4, 5 E 1 1, 3 E 2 2, 4, 5 19

20 20