Klasifikasi. Diadaptasi dari slide Jiawei Han

dokumen-dokumen yang mirip
Klasifikasi. Diadaptasi dari slide Jiawei Han

LEARNING. Program Studi Ilmu Komputer FPMIPA UPI RNI IK460(Kecerdasan Buatan)

Bayesian Classifier. Bahan Kuliah Data Mining. Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Program Studi Teknik Informatika FMIPA Universitas Syiah Kuala

S1 Teknik Informatika Fakultas Teknologi Informasi Universitas Kristen Maranatha

BAB II TINJAUAN PUSTAKA

Klasifikasi. Agenda. Pendahuluan Klasifikasi Induksi Pohon Keputusan Klasifikasi Bayesian classification 31/10/2014

BAB 2 LANDASAN TEORI

PEMBENTUKAN DECISION TREE DATA LAMA STUDI MAHASISWA MENGGUNAKAN ALGORITMA NBTREE DAN C4.5

M. Zidny Naf an Gasal 2016/2017

Kecerdasan Buatan Materi 6. Iterative Dichotomizer Three (ID3)

KLASIFIKASI PADA TEXT MINING

KLASIFIKASI PADA TEXT MINING

Pohon Keputusan. 6.1 Inductive Learning

Penggunaan Pohon Keputusan untuk Data Mining

PENCARIAM JURUSAN SUBANG DENGAN ALGORITMA C 4.5 DAN DATA MINING STMIK SUBANG Timbo Faritcan Parlaungan Siallagan

BAB II KAJIAN TEORI. Pada bab ini berisi tentang teori-teori dasar mengenai kredit, database,

BAB 2. Landasan Teori

BAB I PENDAHULUAN 1.1 Latar Belakang

BAB 2 LANDASAN TEORI

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN 1.1 Latar Belakang 1.2 Perumusan Masalah

Penerapan Fungsi Data Mining Klasifikasi untuk Prediksi Masa Studi Mahasiswa Tepat Waktu pada Sistem Informasi Akademik Perguruan Tinggi

PREDIKSI HERREGISTRASI CALON MAHASISWA BARU MENGGUNAKAN ALGORITMA NAÏVE BAYES

BAB II TINJAUAN PUSTAKA Indeks Prestasi Kumulatif dan Lama Studi. menggunakan dokumen/format resmi hasil penilaian studi mahasiswa yang sudah

Tekno Efisiensi Jurnal Ilmiah KORPRI Kopertis Wilayah IV, Vol 1, No. 1, Mei 2016

BAB III PEMBAHASAN. Sumber data diperoleh dari Koperasi X yang terdiri dari 3 file excel

BAB I PENDAHULUAN Latar Belakang

Versi Online tersedia di : JURNAL TECH-E (Online)

Universitas Putra Indonesia YPTK Padang Fakultas Ilmu Komputer Program Studi Teknik Informatika. Classification Decision Tree

BAB II TINJAUAN PUSTAKA

JURNAL TEKNIK, (2014) APLIKASI DATA MINING UNTUK MEMPREDIKSI PERFORMANSI MAHASISWA DENGAN METODE KLASIFIKASI DECISION TREE

PEMBENTUKAN MODEL KLASIFIKASI DATA LAMA STUDI MAHASISWA STMIK INDONESIA MENGGUNAKAN DECISION TREE DENGAN ALGORITMA NBTREE

log 0log Berdasarkan data-data berikut ini buat Decision tree-nya Solusi: Node Awal

ANALISIS KLASIFIKASI PADA NASABAH KREDIT KOPERASI X MENGGUNAKAN DECISION TREE C4.5 DAN NAÏVE BAYES

MKB3462 KECERDASAN BUATAN. Muhammad Zidny Naf an, M.Kom.

PENERAPAN DATA MINING UNTUK EVALUASI KINERJA AKADEMIK MAHASISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER

Jurnal Informatika Mulawarman Vol. 12, No. 1, Februari ISSN

THE APPLICATION OF DATA MINING FOR OLD STUDENT TO PREDICTION STUDIES USING NAIVE BAYES AND ADABOOST METHOD

KLASIFIKASI DATA MENGGUNAKAN JST BACKPROPAGATION MOMENTUM DENGAN ADAPTIVE LEARNING RATE

Algoritma Dasar. 4.1 Naive Bayes

Penggunaan Pohon Keputusan untuk Klasifikasi Tingkat Kualitas Mahasiwa Berdasarkan Jalur Masuk Kuliah

BAB III METODOLOGI PENELITIAN. Dataset

BAB II LANDASAN TEORI

BAB III METODE PENELITIAN

BAB 3 METODE PENELITIAN

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

BAB II TINJAUAN PUSTAKA

ANALISIS PREDIKSI TINGKAT KETIDAKDIPLINAN SISWA MENGGUNAKAN ALGORITMA NAÏVE BAYES CLASSIFIER (STUDI KASUS : SMK NEGERI 1 PACITAN)

Sekip Utara Yogyakarta * 1 2

REKOMENDASI TOPIK TUGAS AKHIR MAHASISWA TEKNIK INFORMATIKA DI UNIVERSITAS MUHAMMADIYAH JEMBER MENGGUNAKAN METODE NAÏVE BAYESIAN CLASSIFIER

BAB 2 LANDASAN TEORI

Teknik Pengklasifikasi : Bayesian, JST (ANN) Bertalya Universitas Gunadarma 2009

Jurnal String Vol. 1 No. 1 Tahun 2016 ISSN:

TINJAUAN PUSTAKA. Definisi Data Mining

ALGORITMA C4.5 UNTUK PENILAIAN KINERJA KARYAWAN

Akurasi Data Mining Untuk Menghasilkan Pola Kelulusan Mahasiswa

ANALISIS PERBANDINGAN ALGORITMA DECISION TREE J48 DAN NAÏVE BAYES DALAM MENGKLASIFIKASIKAN POLA PENYAKIT SKRIPSI. Oleh :

BAB I PENDAHULUAN. Seiring makin pesatnya perkembangan internet, dokumen-dokumen dari

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI

Alfa Saleh. Teknik Informatika Universitas Potensi Utama Jl K.L. Yos Sudarso KM 6.5 No.3-A, Tanjung Mulia, Medan

Konsep Data Mining. Klasifikasi : Pohon Keputusan. Bertalya Universitas Gunadarma 2009

Data Mining II Estimasi

BAB II LANDASAN TEORI

BAB II LANDASAN TEORI

I.1 Latar Belakang Masalah Seiring berjalannya waktu dan perkembangan teknologi media penyimpanan elektronik, setiap organisasi dapat menyimpan

BAB II TINJAUAN PUSTAKA DAN LANDASAN TEORI. yang tepat. Sistem data mining mampu memberikan informasi yang tepat dan

ID3 : Induksi Decision Tree

- PERTEMUAN 1 - KNOWLEGDE DISCOVERY

BAB II TINJAUAN PUSTAKA DAN DASAR TEORI. Dalam tinjauan pustaka dibawah ini terdapat 6 referensi sebagai berikut : - Algoritma Naïve Bayes Classifier

PENERAPAN ALGORITMA C5.0 DALAM PENGKLASIFIKASIAN DATA MAHASISWA UNIVERSITAS NEGERI GORONTALO

PROGRAM BANTU PENEMPATAN PERSEDIAAN BARANG SANITER PADA DUA TOKO DENGAN METODE NAÏVE BAYES

BAB 3 LANDASAN TEORI

ISSN : STMIK AMIKOM Yogyakarta, 6-8Februari 2015

BAB 3 ALGORITMA C4.5. Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan.

Tahap Penemuan Knowledge pada Data Mining (KDD)

LEARNING ARTIFICIAL INTELLIGENT. Dr. Muljono, S.Si, M. Kom

IMPLEMENTASI ALGORITMA FUZZY SEBAGAI PENGGALIAN INFORMASI KETERLAMBATAN KELULUSAN TUGAS AKHIR MAHASISWA DENGAN METODE DECISION TREE

BAB II LANDASAN TEORI

BAB I PENDAHULUAN 1.1 Latar Belakang

Modul IV KLASIFIKASI

Materi Praktikum Data Mining Decision Tree Program Studi Informatika / Matematika FMIPA Universitas Syiah Kuala

PENERAPAN ALGORITMA KLASIFIKASI C4.5 UNTUK DIAGNOSIS PENYAKIT KANKER PAYUDARA

BAB II TINJAUAN PUSTAKA. mengenai penelitian terdahulu, tentang prediksi lama masa studi mahasiswa,

Modul Praktikum WEKA. Pembaca modul ini diasumsikan telah mengerti dasar-dasar datamining.

PENERAPAN ALGORITMA NAÏVE BAYES UNTUK DETEKSI BAKTERI E-COLI

IMPLEMENTASI ALGORITMA ID3 UNTUK KLASIFIKASI PERFORMANSI MAHASISWA (STUDI KASUS ST3 TELKOM PURWOKERTO)

POHON KEPUTUSAN DENGAN ALGORITMA C4.5

PERBANDINGAN AKURASI KLASIFIKASI TINGKAT KEMISKINAN ANTARA ALGORITMA C 4.5 DAN NAÏVE BAYES

BAB I PENDAHULUAN 1.1 Latar Belakang

KLASIFIKASI NASABAH ASURANSI JIWA MENGGUNAKAN ALGORITMA NAIVE BAYES BERBASIS BACKWARD ELIMINATION

DIAGNOSA KETERLAMBATAN PERKEMBANGAN PADA ANAK BALITA DENGAN ACUAN DENVER II DAN PENGAMBIL KEPUTUSAN DENGAN METODE DECISION TREE BERBASIS JSP

IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES CLASSIFIER UNTUK MENDUKUNG STRATEGI PEMASARAN DI BAGIAN HUMAS STMIK AMIKOM YOGYAKARTA

Pengenalan Pola. Klasifikasi Naïve Bayes

ALGORITMA C4.5 UNTUK SIMULASI PREDIKSI KEMENANGAN DALAM PERTANDINGAN SEPAKBOLA

BAB 2 TINJAUAN PUSTAKA

Aplikasi Inferensi Bayes pada Data Mining terutama Pattern Recognition

Metode Klasifikasi (SVM Light dan K-NNK. NN) Dr. Taufik Fuadi Abidin, S.Si., M.Tech. Jurusan Informatika FMIPA Universitas Syiah Kuala

HASIL DAN PEMBAHASAN. Setiap tahapan di dalam penelitian ini akan ditunjukkan di dalam Tabel 2.

DIAGNOSIS PENYAKIT KANKER PAYUDARA MENGGUNAKAN METODE NAIVE BAYES BERBASIS DESKTOP

MODUL 12 Model Prediktif

Transkripsi:

Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012

Pengantar Classification Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan digunakan untuk mengklasifikasi data. Prediction Memprediksi nilai yang belum diketahui Aplikasi Persetujuan kredit Diagnosis penyakit Target marketing Fraud detection

Contoh Kasus Input: data mahasiswa Output: dua kelas (lulus_tepat_waktu dan lulus_terlambat) Bagaimana kalau diberikan data input mahasiswa, sistem secara otomatis menentukan mhs tersebut akan lulus tepat waktu atau terlambat?

Pembuatan Model Data Pelatihan Algoritma Klasifikasi NAMA IPK Sem 1 Matdas tepat_waktu Budi 3 A yes Wati 1.5 E no Badu 2 A yes Rudi 3.5 C yes Classifier (Model) IF IPK > 3 OR MATDAS =A THEN tepat_waktu = yes

Proses Testing Model Testing Data Classifier (MODEL) NAMA IPK_SEM1 MADAS TEPAT_WAKTU Akhmad 3.2 A yes Intan 3.3 B no Indah 2.3 C yes Ujang 1.7 E no Sejauh mana model tepat meramalkan?

Proses Klasifikasi Classifier (MODEL) Data Baru (Tatang, 3.0, A) Lulus tepat waktu?

Proses pembuatan model Data latihan Model Klasifikasi Proses testing model Data testing Apakah model sudah benar? Proses klasifikasi Data yang tidak diketahui kelasnya kelas data

Sebelum Klasifikasi Data cleaning Preprocess data untuk mengurangi noise dan missing value Relevance analysis (feature selection) Memilih atribut yang penting Membuang atribut yang tidak terkait atau duplikasi. Data transformation Generalize and/or normalize data

Evaluasi Metode Klasifikasi Akurasi classifier accuracy: memprediksi label kelas predictor accuracy: memprediksi nilai atribut kecepatan Waktu untuk membuat model (training time) Waktu untuk menggunakan model (classification/prediction time) Robustness: menangai noise dan missing value. Scalability: efisien untuk proses dengan DBMS Interpretability Model mudah dimengerti Slide berikutnya salah satu metode: decision tree

Decision Tree Diciptakan oleh Ross Quinlan ID3, C4.5, C5.0 Model direpresentasikan dalam bentuk tree

Decision Tree: Contoh Input (Data Latih) age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no

Masalah Bagaimana dari data latih tersebut dapat diperoleh model yang bisa mengklasifikasikan secara otomatis?

Model: Decision Tree age? <=30 overcast 31..40 >40 student? yes credit rating? no yes excellent fair no yes yes Dari data latih, model ini dibangkitkan secara otomatis

Tree Dapat Direpresentasikan sebagai Rule age? <=30 overcast 31..40 >40 student? no yes yes credit rating? excellent fair no yes yes ((age<=30) and (student) ) OR (age=31..40) OR (age>40) and (credit_rating=fair) THEN BELI_PC=YES

Bagaimana cara pemilihan urutan atribut? age? <=30 overcast 31..40 >40 student? yes credit rating? no yes excellent fair no yes yes

Cara Pemilihan Atribut Entrophy: Ukuran kemurnian, semakin murni, semakin homogen, semakin rendah nilainya. Information Gain: pengurangan entropy disebabkan oleh partisi berdasarkan suatu atribut. Semakin besar info gain = atribut itu semakin membuat homogen = semakin bagus Idenya pilih atribut dengan info gain yg paling besar

Entrophy untuk dua kelas: + dan - 1.0 Entropy(S) -p log p - p log p 2 Θ 2 Θ Entropy([9+,5-] ((9 positif, 5 neg)) = -(9/14) log 2 (9/14) (5/14) log 2 (5/14) = 0.940 entropy 0.0 Proprosi contoh positif 1.0 Entropy([9+,5-]) = 0.940 Entropy([7+,7-]) = 1 Entropy([14+,0]) = 0 Entroy([0+,14-]) = 0

Entrophy untuk kelas > 2 Info( D) = p log ( p i 2 m i= 1 i ) Info (D) = Entrophy (D) (istilah dibuku J. HAN)

Information Gain v Dj Info A( D) = I( D D j= 1 j ) Gain(A) = Info(D) Info (D) A Gain(A) seberapa besar entropy berkurang akibat atribut A. Makin besar makin bagus.

Contoh Pemilihan Atribut Class P: buys_computer = yes Class N: buys_computer = no 9 9 5 Info ( D) = I (9,5) = log ( ) log 2 14 14 14 5 ( ) 14 2 = 0.940 Info age ( D) = + 5 14 5 14 I (2,3) + I (3,2) = 4 14 0.694 I (4,0) age p i n i I(p i, n i ) <=30 2 3 0.971 31 40 4 0 0 >40 3 2 0.971 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no 5 I (2,3) 14 berarti ada 5 dari 14 age <=30 dgn 2 yes dan 3 no. Gain (Age) = Info(D) Info age (D) =0.940 0.694 = 0.246 Gain( income) = 0.029 Gain( student) = 0.151 Gain( credit _ rating) = 0.048

Pemilihan Atribut (lanj) Gain (Age) = 0.246 yang terbesar, dipilih Gain (income)=0.029 Gain(student)=0.151 Gain(credit_rating) =0.048 Setelah AGE, atribut apa selanjutnya? Diproses untuk setiap cabang selama masih ada > 1 kelas age? <=30 overcast 31..40 >40 Selanjutnya... proses data yang <=30 yes Tidak perlu diproses lagi

Pemilihan Atribut (lanj) Selanjutnya... proses data age<=30 age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no <=30 medium no fair no <=30 low yes fair yes <=30 medium yes excellent yes 2 2 3 Info ( D) = I (2,3) = log ( ) log 2 5 5 5 3 ( ) 5 2 = 0.97 Gain(age) tidak perlu dihitung lagi, hitung gain(student), gain(credit_rating) Info student 3 2 ( D) = I (0,3) + I (2,0) = 5 5 Gain (student) = Info(D) Infostudent(D) =0.97 0 = 0.97 0

Pemilihan Atribut (lanj) age income student credit_rating buys_computer <=30 high no fair no <=30 high no excellent no <=30 medium no fair no <=30 low yes fair yes <=30 medium yes excellent yes hitung gain(credit_rating) 2 2 3 Info ( D) = I (2,3) = log ( ) log 2 5 5 5 Info credit 3 ( ) 5 2 = 0.97 3 2 _ rating ( D) = I (1,2) + I (1,1) = 5 5 Gain (credit_rating) = Info(D) Infostudent(D) =0.97 0.95 = 0.02 0.95 Info income 2 2 1 ( D) = I (0,2) + I (1,1) + I (1,0) = 5 5 5 0.4

Pilihan Atribut (lanj) Bandingkan semua gain, ambil yang paling besar Gain (student) = 0.97 Gain (credit_rating = 0.02 Gain (income) = 0.57 Paling besar student

Pemilhan Atribut (lanj) age? <=30 overcast 31..40 >40 student? yes no yes no yes

Latihan No Kelas Kulit Buah Warna Ukuran Bau 1 Aman Kasar Coklat Besar keras 2 Aman Kasar Hijau Besar keras 3 Berbahaya Halus Merah Besar Lunak 4 Aman Kasar Hijau Besar Lunak 5 Aman Kasar Merah Kecil Keras 6 Aman Halus Merah Kecil Keras 7 Aman Halus Coklat Kecil Keras 8 Berbahaya Kasar Hijau Kecil Lunak 9 Berbahaya Halus Hijau Kecil Keras 10 Aman Kasar Merah Besar Keras 11 Aman Halus Coklat Besar Lunak 12 Berbahaya Halus Hijau Kecil Keras 13 Aman Kasar Merah Kecil Lunak 14 Berbahaya Halus Merah Besar Keras 15 Aman Halus Merah Kecil Keras 16 Berbahaya Kasar Hijau Kecil Keras

Mengapa Decision Tree? Mudah diimplementasikan Hipotesis yang dihasilkan mudah dipahami Efisien

Decision Tree Cocok untuk Masalah: Data dalam bentuk atribut-nilai. Kondisi ideal adalah jika isi nilai jumlahnya sedikit. Misalnya: panas, sedang, dingin. Output diskrit. Training data dapat tidak lengkap

Masalah DT Overfitting: terlalu mengikuti training data Terlalu banyak cabang, merefleksikan anomali akibat noise atau outlier. Akurasi rendah untuk data baru Dua pendekatan untuk menghindari overfitting Prepruning: Hentikan pembuatan tree di awal. Tidak mensplit node jika goodness measure dibawah threshold. Sulit untuk menentukan threshold Postpruning: Buang cabang setelah tree jadi Menggunakan data yang berbeda dengan training untuk menentukan pruned tree yang terbaik.

Bayesian Classification

Probabilitas Bersyarat P( H X ) Kemungkinan H jika diketahui X. X adalah kumpulan atribut. P(H) Kemungkinan H di data, independen terhadap X P ( Single muka sayu, baju berantakan, jalan sendiri ) nilainya besar P ( Non Single muka ceria, baju rapi, jalan selalu berdua ) nilainya besar P ( Single ) = jumlah single / jumlah mahasiwa

Probablitas Bersyarat

Klasifikasi X = ( muka cerah, baju rapi, jalan sendiri,) Kelasnya (H) Single atau Non Single? Cari P(H X) yang paling besar: ( Single muka cerah, jalan sendiri, baju rapi ) Atau ( Non Single muka cerah, jalan sendiri, baju rapi )

Training Data yang dimiliki adalah P(X H) Yg bisa dihitung dari data training: P ( muka sayu, baju berantakan, jalan sendiri Single ) P ( muka ceria, baju rapi, jalan selalu berdua Non Single ) Bagaimana menghubungkan P(X H) di data training dengan P(H X)?

P( H X ) : posterior P(H) : a priori P (X H) probabilitas X, jika diketahui H data training Kegiatan klasifikasi: kegiatan mencari P (H X) yang paling maksimal Teorema Bayes: P ( H X) = P( X H) P( H) P( X)

Thomas Bayes 1701 1761 Penemu Teorema Bayes.

Klasifikasi ) ( ) ( ) ( ) ( X X X P i P C i C P i C P = Harus memaksimalkan (C i : kelas ke-i) Karena P(X) konstan untuk setiap Ci maka bisa ditulis: ) ( ) ( ) ( i P C i C P i C P X X =

Naïve Bayes Classifier Penyederhanaan masalah: Tidak ada kaitan antar atribut jalan sendiri dan muka sayu n P( X Ci) = P( x k = 1 k Ci) = P( x 1 Ci) P( x 2 Ci)... P( x n Ci) X 1 : atribut ke-1 ( jalan sendiri ) X n : atribut ke-n

Naïve Bayes Jika bentuknya kategori, P(x k C i ) = jumlah kelas C i yang memiliki x k dibagi C i (jumlah anggota kelas C i di data contoh) Jika bentuknya continous dapat menggunakan distribusi gaussian

Contoh Naïve Bayes age income studentcredit_rating_comp <=30 high no fair no <=30 high no excellent no 31 40 high no fair yes >40 medium no fair yes >40 low yes fair yes >40 low yes excellent no 31 40 low yes excellent yes <=30 medium no fair no <=30 low yes fair yes >40 medium yes fair yes <=30 medium yes excellent yes 31 40 medium no excellent yes 31 40 high yes fair yes >40 medium no excellent no

Contoh Naïve Bayes P(Ci): P(buys_computer = yes ) = 9/14 = 0.643 P(buys_computer = no ) = 5/14= 0.357 Training: Hitung P(X Ci) untuk setiap kelas P(age = <=30 buys_computer = yes ) = 2/9 = 0.222 P(age = <= 30 buys_computer = no ) = 3/5 = 0.6 P(income = medium buys_computer = yes ) = 4/9 = 0.444 P(income = medium buys_computer = no ) = 2/5 = 0.4 P(student = yes buys_computer = yes) = 6/9 = 0.667 P(student = yes buys_computer = no ) = 1/5 = 0.2 P(credit_rating = fair buys_computer = yes ) = 6/9 = 0.667 P(credit_rating = fair buys_computer = no ) = 2/5 = 0.4 Klasifikasi: X = (age <= 30, income = medium, student = yes, credit_rating = fair) P(X Ci) : P(X buys_computer = yes ) = 0.222 x 0.444 x 0.667 x 0.667 = 0.044 P(X buys_computer = no ) = 0.6 x 0.4 x 0.2 x 0.4 = 0.019 P(X Ci)*P(Ci) : P(X buys_computer = yes ) * P(buys_computer = yes ) = 0.028 P(X buys_computer = no ) * P(buys_computer = no ) = 0.007

Pro, Cons Naïve Bayes Keuntungan Mudah untuk dibuat Hasil bagus Kerugian Asumsi independence antar atribut membuat akurasi berkurang (karena biasanya ada keterkaitan)

Supervised vs. Unsupervised Learning Supervised learning (classification) Supervision: Data pelatihan mengandung label kelas. Data diklasifikasikan menggunakan model. Unsupervised learning (clustering) Data pelatihan tidak mengandung label kelas Mencari kelas atau cluster di dalam data. Akan dijelaskan terpisah