BAB II TINJAUAN PUSTAKA. konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

dokumen-dokumen yang mirip
BAB II LANDASAN TEORI. 2.1 Uji Hipotesis

BAB III METODE POHON KLASIFIKASI QUEST

ANALISA FAKTOR PENYEBAB KREDIT MACET DENGAN METODE QUEST

BAB II LANDASAN TEORI

METODE QUEST DAN CHAID PADA KLASIFIKASI KARAKTERISTIK NASABAH KREDIT

BAB I PENDAHULUAN. atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri.

BAB III METODE CHI-SQUARED AUTOMATIC INTERACTION DETECTION

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST SKRIPSI SARJANA MATEMATIKA. Oleh: YONA MALANI

Amalia Maharani, Dewi Retno Sari Saputro, dan Bowo Winarno Program Studi Matematika FMIPA UNS

TINJAUAN PUSTAKA Perilaku Pemilih Partai Politik

BAB II TINJAUAN PUSTAKA. Ki Hajar Dewantara (Bapak Pendidikan Nasional Indonesia, )

BAB III METODE CHAID EXHAUSTIVE

ANALISIS KEPUASAN PESERTA KURSUS KOMPUTER MENGGUNAKAN METODE CHAID BERBASIS KOMPUTER

BAB III LANDASAN TEORI

BAB I PENDAHULUAN. Universitas Pendidikan Indonesia repository.upi.edu

Faktor-Faktor Yang Mem pengaruhi Waktu Penyusunan Tugas Akhir Mahasiswa S1 (Studi Kasus : Mahasiswa FMIPA Unsyiah)

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

ANALISIS CHAID UNTUK IDENTIFIKASI KETEPATAN WAKTU LULUS BERDASARKAN KARAKTERISTIK MAHASISWA

Klasifikasi Variabel Penentu Kelulusan Mahasiswa FMIPA Unpatti Menggunakan Metode CHAID

METODE QUEST DAN CHAID PADA KLASIFIKASI KARAKTERISTIK NASABAH KREDIT [SKRIPSI] KOMPETENSI STATISTIKA

BAB I PENDAHULUAN 1.1. Latar Belakang Masalah

METODE KAJIAN Pengumpulan Data

Perancangan Percobaan

ISSN: JURNAL GAUSSIAN, Volume 4, Nomor 2, Tahun 2015, Halaman Online di:

PENERAPAN METODE QUICK, UNBIASED, EFFICIENT STATISTICAL TREES

III OBJEK DAN METODE PENELITIAN. Objek penelitian ini menggunakan catatan reproduksi sapi FH impor

TINJAUAN PUSTAKA Analisis Gerombol

PEMODELAN DENGAN REGRESI LOGISTIK. Secara umum, kedua hasil dilambangkan dengan (sukses) dan (gagal)

BAB 2 LANDASAN TEORI

OLEH : WIJAYA. FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2009

Nina Milana 1 dan Abadyo 2 Universitas Negeri Malang

BAB III ANALISIS FAKTOR. berfungsi untuk mereduksi dimensi data dengan cara menyatakan variabel asal

ANALISIS RAGAM KLASIFIKASI 2 ARAH. b. Mengetahui perbedaan keragaman disebabkan perbedaan antarkolom. Kolom 1 2. j. c. Nilai rata I... R..

TINJAUAN PUSTAKA. i dari yang terkecil ke yang terbesar. Tebaran titik-titik yang membentuk garis lurus menunjukkan kesesuaian pola

KLASIFIKASI PENYAKIT DIABETES MELITUS DENGAN METODE CHAID (CHI SQUARE AUTOMATIC INTERACTION DETECTION) DAN CART (CLASSIFICATION AND REGRESSION TREE)

III. METODE PELAKSANAAN

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST (QUICK, UNBIASED, AND EFFICIENT STATISTICAL TREE) PADA DATA PASIEN LIVER

Resume Regresi Linear dan Korelasi

BAB IV HASIL DAN PEMBAHASAN. sebagai kelas kontrol. Penelitian ini bertujuan untuk mengetahui perbedaan

OLEH : WIJAYA FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2011

S T A T I S T I K A OLEH : WIJAYA

TINJAUAN PUSTAKA Analisis Biplot Biasa

PERENCANAAN (planning) suatu percobaan untuk memperoleh INFORMASI YANG RELEVAN dengan TUJUAN dari penelitian

OLEH : WIJAYA FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2010

FAKTOR INTERNAL: - Kesehatan - Minat Belajar - Sikap Belajar - Religiusitas PRESTASI BELAJAR (IP)

Semakin besar persentase CCR yang dihasilkan, maka tingkat akurasi yang dihasilkan semakin tinggi (Hair et. al., 1995).

PEMBENTUKAN POHON KLASIFIKASI DENGAN METODE CHAID

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

MODEL-MODEL LEBIH RUMIT

ANALISIS CHAID SEBAGAI ALAT BANTU STATISTIKA UNTUK SEGMENTASI PASAR (Studi Kasus pada Koperasi Syari ah Al-Hidayah)

III. METODE PENELITIAN. Penelitian ini telah dilaksanakan di rumah kaca Fakultas Pertanian Universitas

PENERAPAN METODE CHAID (CHI-SQUARED AUTOMATIC INTERACTION DETECTION) DAN EXHAUSTIVE CHAID PADA KLASIFIKASI PRODUKSI JAGUNG DI PULAU JAWA

KLASIFIKASI STATUS KERJA PADA ANGKATAN KERJA KOTA SEMARANG TAHUN 2014 MENGGUNAKAN METODE CHAID DAN CART

III. METODE PENELITIAN. Waktu penelitian dimulai dari bulan Februari 2014 sampai dengan bulan Januari 2015.

STATISTIKA II (BAGIAN

Perbedaan Analisis Univariat dan Multivariat

Implementasi Metode Chi-Squared Automatic Interaction Detection pada Klasifikasi Indeks Prestasi Kumulatif Mahasiswa FMIPA UNIROW

SEGMENTASI PASAR MENGGUNAKAN METODE CHI-SQUARED AUTOMATIC INTERACTION DETECTION (CHAID) (Studi Kasus di PD. BPR-BKK Purwokerto Utara)

Acak Kelompok Lengkap (Randomized Block Design) Arum H. Primandari, M.Sc.

Universitas Negeri Malang

6 Departemen Statistika FMIPA IPB

ANALISIS WAKTU KELULUSAN MAHASISWA DENGAN METODE CHAID (STUDI KASUS: FMIPA UNIVERSITAS UDAYANA)

PERCOBAAN SATU FAKTOR: RANCANGAN ACAK LENGKAP (RAL) Arum Handini Primandari, M.Sc.

BAB II TINJAUAN PUSTAKA. digunakan sebagai rujukan ada dua penelitian. Rujukan penelitian pertama yaitu penelitian Lavoranti et al.

Bab 2 LANDASAN TEORI

Percobaan Rancangan Petak Terbagi dalam RAKL

IDENTIFIKASI FAKTOR-FAKTOR YANG MEMPENGARUHI MAHASISWA PASCASARJANA IPB BERHENTI STUDI MENGGUNAKAN ANALISIS CHAID DAN REGRESI LOGISTIK

BAB II TINJAUAN PUSTAKA. satu peubah prediktor dengan satu peubah respon disebut analisis regresi linier

LAMPIRAN. Lampiran 1. Data Performa Reproduksi Sapi Perah Impor Pertama

HASIL DAN PEMBAHASAN

5 Departemen Statistika FMIPA IPB

BAB II TINJAUAN PUSTAKA. level, model regresi tiga level, penduga koefisien korelasi intraclass, pendugaan

METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN ALGORITMA QUEST DAN ALGORITMA CART (Aplikasi pada Data Pasien Penyakit Jantung) SKRIPSI

III. METODE PENELITIAN. Penelitian ini telah dilaksanakan di rumah kaca Fakultas Pertanian Universitas

BAB III METODE PENELITIAN. Dalam menentukan desain penelitian maka hal tersebut sangatlah

BAB III METODOLOGI PENELITIAN

STATISTIKA. Muhamad Nursalman Pendilkom/Ilkom UPI

STK511 Analisis Statistika. Pertemuan 10 Analisis Korelasi & Regresi (1)

METODE SCHEFFE DALAM UJI KOMPARASI GANDA ANALISIS VARIANS DUA FAKTOR DENGAN INTERAKSI

BAB 2 LANDASAN TEORI

Pengacakan dan Tata Letak

BAB 2 LANDASAN TEORI. 1. Analisis Korelasi adalah metode statstika yang digunakan untuk menentukan

I. TINJAUAN PUSTAKA. distribusi normal multivariat, yaitu suatu kombinasi linier dari elemen-elemennya adalah

III. METODE PENELITIAN. Penelitian ini telah dilaksanakan di Laboratorium Silvikultur, Jurusan

Percobaan Satu Faktor: Rancangan Acak Lengkap (RAL) Oleh: Arum Handini Primandari, M.Sc.

III. METODE PENELITIAN. Penelitian dilaksanakan di rumah kaca (greenhouse) Unit Pelaksana Teknis Dinas

METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN ALGORITMA QUEST Wahidah Alwi Nur Azni Tahir

BAB 2 TINJAUAN TEORI

III. METODE PENELITIAN

Perancangan Percobaan

Lampiran 1. Perhitungan Kelangsungan Hidup Benih Ikan Koi Pada Penelitian Pendahuluan.

BAB. IX ANALISIS REGRESI FAKTOR (REGRESSION FACTOR ANALYSIS)

ANALISIS IPK MAHASISWA PENERIMA BEASISWA BIDIK MISI IPB DENGAN PENDEKATAN METODE CHAID FERRY ANTONI MS

BAB 2 LANDASAN TEORI. 1. Analisis korelasi adalah metode statistika yang digunakan untuk menentukan

PENERAPAN METODE CHAID DAN REGRESI LOGISTIK DALAM ANALISIS SEGMENTASI PASAR KONSUMEN AQUA DIMAS FAJAR AIRLANGGA

BAB IV HASIL PENELITIAN. Data yang dikumpulkan dalam penelitian ini terdiri dari tiga variabel yaitu

BAB II LANDASAN TEORI. : Ukuran sampel telah memenuhi syarat. : Ukuran sampel belum memenuhi syarat

PRAKTIKUM RANCANGAN PERCOBAAN KATA PENGANTAR

aljabar geo g metr me i

HASIL DAN PEMBAHASAN. dengan hipotesis nolnya adalah antar peubah saling bebas. Statistik ujinya dihitung dengan persamaan berikut:

Transkripsi:

BAB II TINJAUAN PUSTAKA Bab ini akan membahas pengertian metode klasifikasi berstruktur pohon, konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma CHAID, keakuratan dan kesalahan dalam klasifikasi, dan perbedaan antara QUEST dan CHAID..1 Metode Klasifikasi Berstruktur Pohon Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan yang diduga dari pengukuran satu variabel prediktor atau lebih dalam kelas variabel respon kategorik. Metode ini menghasilkan pohon klasifikasi yang dibentuk melalui penyekatan secara berulang. Metode klasifikasi berstruktur pohon digunakan sebagai alternatif apabila beberapa asumsi pada metode parametrik tidak terpenuhi. Metode ini juga memiliki beberapa kelebihan antara lain mudah untuk diinterpretasikan karena tampilan berupa diagram pohon, lebih fleksibel serta mampu memeriksa pengaruh variabel prediktor satu per satu (Lewis, 000).. Konsep-Konsep Dasar pada QUEST dan CHAID Konsep-konsep statistika yang menjadi dasar pada metode QUEST yaitu uji khi-kuadrat, uji ANOVA F, uji Levene, dan analisis diskriminan kuadtratik. Metode CHAID menggunakan uji khi-kuadrat dan uji koreksi Bonferroni. 6

7..1 Uji khi-kuadrat (χ ) Uji khi-kuadrat (χ ) pada dasarnya menyangkut pembuatan tabulasi silang yang digunakan untuk mengetahui hubungan antara dua variabel kategorik. Hubungan yang didapatkan tersebut digunakan untuk mengontrol susunan dari pohon klasifikasi. Misalkan suatu variabel pertama memiliki r kategori dan variabel kedua memiliki k kategori maka O ij adalah pengamatan pada variabel pertama di level i dan variabel kedua di level j, secara umum tabel disajikan sebagai berikut. Tabel.1 Struktur Data Uji Khi-kuadrat Variabel 1 / Variabel 1 k Total 1 O 11 O 1 O 1k n 1. n 1 n O k n. r O r1 O r O rk n r. Total n.1 n. n.k n Sumber: Usman dan Setiady (006) Hipotesis pada pengujian khi-kuadrat adalah: H 0 : Kedua variabel saling bebas H 1 : Kedua variabel tidak saling bebas Sedangkan statistik ujinya adalah: χ = r c (O ij E ij ) j =1 E ij i=1 dengan E ij = n i.n.j n (.1) dengan E ij menyatakan nilai harapan pengamatan pada baris ke-i dan kolom ke-j, n i. menyatakan total banyaknya pengamatan pada baris ke-i, n.j menyatakan total

8 banyaknya pengamatan pada baris ke-j, dan n menyatakan total banyaknya responden. Keputusan yang diambil dari uji khi-kuadrat ini adalah H 0 ditolak jika nilai χ it > χ tabel atau p value < α... Uji ANOVA F Uji ANOVA F digunakan untuk menguji perbedaan rata-rata dari beberapa kelompok sampel yang saling bebas. Bila μ k adalah rata-rata dari kelompok ke-k (k = 1,,, K), maka hipotesis yang digunakan adalah: H 0 : μ 1 = μ = = μ K (tidak ada perbedaan rata-rata antarkelompok) H 1 : Minimal ada satu μ k yang berbeda Uji yang digunakan adalah uji F yang diperoleh dengan membentuk tabel ANOVA F seperti tabel di bawah ini: Tabel. ANOVA F Sumber keragaman Jumlah kuadrat (JK) (SK) Derajat bebas (db) Kuadrat tengah (KT) F hitung Rata-rata Kolom (K) JKK= K X k. k=1 X.. n k N K-1 KTK= JKK K 1 Galat (G) JKG= JKT-JKK N-K KTG= JKG N K F = KTK KTG n k k=1 X.. N Total K JKT= i=1 x ki Sumber: Riduwan (010) N-1 dengan i=1,,,n k, k=1,,,k. x ki menyatakan pengamatan ke-i dari kelompok ke-k, N menyatakan jumlah seluruh data, K menyatakan jumlah kelompok, n k

9 menyatakan ukuran data kelompok ke-k, X k menyatakan jumlah pengamatan kelompok ke-k, dan X.. menyatakan jumlah pengamatan seluruh data. Keputusan yang diambil dari uji ANOVA F adalah H 0 ditolak jika nilai F it > F tabel atau p_value < α...3 Uji Levene F Uji Levene F digunakan untuk menguji kesamaan ragam variabel dari beberapa kelompok. Bila σ k adalah simpangan baku populasi dari kelompok kek, maka hipotesis yang digunakan adalah: H 0 : σ 1 = σ = = σ K, (data homogen) H 1 : Minimal ada satu σ k yang heterogen Uji levene F: w = (N K) K k=1 N k (y k. y.. ) n (.) K 1 K k k=1 (y ki y k. ) i=1 dengan, y ki = x ki x k, x k menyatakan rata-rata dari kelompok ke-k, y k. menyatakan rata-rata kelompok dari y i, dan y.. menyatakan rata-rata menyeluruh dari y ki. Keputusan yang diambil dari uji Levene F adalah H 0 ditolak jika nilai F it > F tabel atau p value < α.

10..4 Analisis Diskriminan Kuadratik Analisis diskriminan merupakan teknik menganalisis data, dimana variabel respon merupakan variabel kategorik sedangkan variabel prediktor merupakan variabel numerik (Supranto, 010). Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks ragam peragam yang sama disebut fungsi diskriminan linear, sedangkan fungsi yang dibangun tanpa asumsi tersebut disebut fungsi diskriminan kuadratik. Jika f k (x) adalah fungsi kepekatan peluang bersama dari sampel acak yang berasal dari kelompok ke-k dan menyebar mengikuti sebaran normal multivariat, maka menurut Johnson dan Winchern dalam Kurniasari dkk (014) didapat: f k x = 1 (π) p k 1 exp 1 (x μ k) t 1(x μ k ) k, k = 1,,, K (.3) dengan, μ k menyatakan vektor rata-rata kelompok ke-k, k menyatakan matriks ragam peragam kelompok ke-k, dan p menyatakan banyaknya variabel. Skor diskriminan kuadratik untuk sebuah pengamat dengan nilai x = x 1, x, x p terhadap kelompok ke-k dan p k menyatakan peluang awal dari kelompok ke-k: 1 d Q k x = 1 ln k 1 (x μ k) t k (x μ k ) + ln p k (.4) Apabila μ k dan k tidak diketahui, maka harus dicari taksiran dari μ k dan k dengan memanfaatkan data sampel yang telah dikelompokkan dengan benar. Taksiran dari skor diskriminan kuadratik menjadi:

11 d k Q x = 1 ln s k 1 (x x k) t s k 1 (x x k) + ln p k (.5) dengan s k menyatakan matriks peragam sampel dari kelompok ke-k dan x k menyatakan vektor rata-rata sampel dari kelompok ke-k (Jin dan An dalam Kurniasari dkk, 014)...5 Koreksi Bonferroni (Bonferroni Correction) Jika tidak ada pengurangan dari tabel kontingensi asal pada algoritma CHAID, maka statistik uji khi-kuadrat dapat digunakan untuk uji signifikansi. Apabila terjadi pengurangan tabel kontingensi, yaitu dari c kategori menjadi r kategori (r < c), maka nilai khi-kuadrat tersebut dikalikan dengan pengganda Bonferroni sesuai dengan jenis variabelnya. Menurut Gallagher (000) pengali Bonferroni untuk masing-masing jenis variabel-variabel prediktor adalah sebagai berikut: 1. Variabel prediktor monotonik : M = c 1 r 1 (.6) i r i c i! r i!. Variabel prediktor bebas : M = i=0 1 (.7) r 1 3. Variabel prediktor mengambang : M = c r + r c r 1 (.8) dengan c menyatakan banyaknya kategori variabel prediktor asal, r menyatakan banyaknya kategori variabel prediktor setelah penggabungan.

1.3 Metode QUEST (Quick, Unbiased, Efficient Statistical Trees) QUEST merupakan pengembangan dari FACT (Factor Analysis Classification Trees) yang memiliki kecepatan komputasi yang tinggi (Loh dan Shih, 1997) dan suatu metode pohon klasifikasi yang menghasilkan pohon biner. QUEST merupakan modifikasi dari analisis diskriminan kuadratik. Analisis diskriminan kuadratik diterapkan pada proses penentuan simpul penyekat. Apabila variabel penyekat yang dipilih adalah variabel kategorik, maka dilakukan transformasi ke variabel numerik dan selanjutnya diterapkan analisis diskriminan kudratik. Komponen dasar QUEST terdiri dari beberapa variabel prediktor kategorik atau numerik dan variabel respon yang merupakan variabel kategorik..3.1 Algoritma QUEST Menurut Loh dan Shih (1997), algoritma QUEST dibagi menjadi tiga bagian yaitu, algoritma pemilihan variabel penyekat, algoritma penentuan simpul penyekat, dan algoritma penghentian pembentukan pohon. 1. Algoritma Pemilihan Variabel Penyekat Langkah-langkah algoritma pemilihan variabel penyekat adalah sebagai berikut (Loh dan Shih, 1997): a. Untuk setiap variabel prediktor numerik, lakukan uji ANOVA F dan hitung nilai p-value berdasarkan statistika uji F. Untuk setiap variabel prediktor kategorik, lakukan uji khi-kuadrat dan hitung nilai p-value berdasarkan statistika uji khi-kuadrat. b. Pilih variabel prediktor yang memiliki nilai p-value terkecil.

13 c. Bandingkan nilai p-value terkecil dengan α/m 1, dengan taraf nyata α dan M 1 adalah banyaknya variabel prediktor. i. Jika nilai p-value kurang dari α/m 1, maka pilih variabel yang besesuaian sebagai variabel penyekat dan teruskan ke langkah (e). ii. Jika nilai p-value lebih dari α/m 1, maka teruskan ke langkah (d). d. Untuk setiap variabel prediktor X yang numerik, maka: i. Hitung nilai p-value dari uji Levene untuk menguji kehomogenan ragam. ii. Pilih variabel prediktor yang memilik nilai p-value terkecil. iii. Bandingkan nilai p-value dari uji Levene tersebut dengan taraf α (M 1 + M ), dengan M adalah banyaknya variabel prediktor numerik. iv. Jika p-value kurang dari α (M 1 + M ), maka pilih variabel yang bersesuaian sebagai variabel penyekat dan teruskan ke langkah (e). v. Jika p-value lebih dari α (M 1 + M ), maka variabel tersebut tidak dipilih menjadi variabel penyekat. e. Misalkan X * adalah variabel penyekat yang diperoleh pada langkah (c) atau (d), maka langkah selanjutnya menentukan simpul penyekat.. Algoritma Penentuan Simpul Penyekat Setelah terpilih variabel penyekat, langkah selanjutnya adalah menentukan simpul penyekat. Algoritma penentuan simpul penyekat dijelaskan sebagai berikut:

14 a. Variabel Prediktor Kategorik Apabila X * yang terpilih berupa kategorik dan terdiri lebih dari dua kategori, maka QUEST akan mentransformasi ke dalam variabel numerik yang dilambangkan dengan ξ. Selanjutnya QUEST menggunakan algoritma pemilihan simpul penyekat untuk variabel prediktor numerik pada ξ untuk menentukan simpul penyekat. Misalkan X * adalah variabel prediktor kategorik, dengan kategori b 1, b,, b L. X * akan ditransformasi menjadi variabel numerik ξ untuk setiap kelas X * dengan langkah-langkah sebagai berikut (Loh dan Shih, 1997): 1. Transformasi setiap nilai x dari X * ke dalam vektor dummy L dimensi v = (v 1, v,, v L ) dengan v l = 1, x = b l 0, x b l, l = 1,,, L. Cari rata-rata untuk X * v = L l=1 f l v l N t (.9) v (k) = L l=1 n l v l N k,t (.10) dengan, v l menyatakan pengamatan ke-l, v menyatakan rata-rata untuk semua (k) pengamatan pada simpul t, v menyatakan rata-rata untuk semua pengamatan pada simpul t untuk kelompok ke-k, f l menyatakan jumlah pengamatan pada simpul t untuk v l, n l menyatakan jumlah pengamatan pada simpul t kelompok ke-k untuk v l, N t menyatakan jumlah pengamatan pada simpul t, dan N k,t menyatakan jumlah pengamatan pada simpul t kelompok ke-k.

15 3. Tentukan matriks L x L berikut: K k k B = k=1 N k,t v v (v v ) (.11) L T = l=1 f l v l v v l v (.1) 4. Lakukan SVD (singular value decomposition) pada T untuk memperoleh T=QDQ, dimana Q adalah matriks orthogonal L x L, D = diag(d 1,d, d L ) dengan d,d d L 0. Misalkan D -1/ =diag(d 1 *,d *,, d L * ), dengan d l = d 1/ l, jika d l > 0 0, lainnya 5. Lakukan SVD pada D 1 Q BQD 1 untuk memperoleh vektor eigen a yang berhubungan dengan nilai eigen yang terbesar. 6. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = a D 1 Q v (.13) b. Variabel Prediktor Numerik Misalkan variabel respon terdiri dari dua kategori dan variabel prediktor X * yang terpilih berupa variabel numerik. Langkah penentuan variabel prediktor penyekat sebagai berikut (Loh dan Shih, 1997): 1. Definisikan xa dan s A adalah rata-rata dan ragam X * dari pengamatan variabel respon A, sedangkan x B dan s B adalah rata-rata dan ragam X * dari pengamatan variabel respon B. Misalkan P j t = N j.t Nj merupakan peluang dari masingmasing kategori variabel respon, dengan N j,t adalah jumlah data pada simpul t untuk respon j dan N j adalah jumlah data pada simpul awal untuk respon j.. Berikan log pada kedua ruas persamaan: P A t s A 1 φ x x A s A = P(B t)s B 1 φ x x B s B (.14)

16 untuk memperoleh persamaan kuadrat ax + bx + c = 0, dengan: a = s A s B (.15) b = (xas B x Bs A ) (.16) c = (x Bs A ) (xas B ) + s A s B log P(A t)s B P(B t)s A (.17) 3. Sebuah simpul disekat pada X * = d, dimana d didefinisikan sebagai berikut: a. Jika xa< x B, maka d =xa b. Jika a = 0, maka d = c. Jika a 0, maka: (x A +x B ) s A P(A t) log, xa x (x A +x B ) P(B t) B xa, xa = x B (.18) i. Jika b -4ac<0, maka d = (x A +x B ) ii. Jika b -4ac 0, maka d = b± b 4ac a (.19) (.0) dimana d adalah akar dari persamaan (.0) yang lebih mendekati nilai xa, dengan syarat menghasilkan dua simpul tak kosong. 3. Algoritma Penghentian Pembentukan Pohon Proses pemilihan simpul secara rekursif akan terhenti apabila salah satu dari aturan penghentian tercapai. Ada empat aturan penghentian pembentukan pohon yaitu: a. Jika simpul penyekat menjadi murni yaitu apabila semua kasus masuk ke dalam salah satu kategori variabel respon. b. Jika semua kasus yang terdapat di dalam simpul memiliki nilai-nilai identik untuk tiap variabel prediktor.

17 c. Jika kedalaman pohon sudah mencapai kedalaman pohon maksimum yang ditetapkan. d. Jika banyaknya kasus yang masuk ke dalam simpul sudah mencapai jumlah minimum yang ditetapkan..3. Pohon Klasifikasi QUEST QUEST menerapkan modifikasi analisis diskriminan kuadratik rekursif untuk mendapatkan simpul penyekat. Pada saat pembentukan pohon, QUEST menyeleksi variabel serta memilih simpul penyekat secara terpisah. t 1 t t 3 t 4 t 6 t 5 t 7 t 8 t 9 t 10 t 11 t 1 t 13 Gambar.1 Diagram Pohon dalam Analisis QUEST Pada Gambar.1, struktur pohon QUEST memiliki satu simpul akar yang dinyatakan dengan t 1 yang mengandung semua gugus (simpul) data. Pertamapertama, t 1 disekat menjadi dua anak simpul kemudian diperiksa kembali secara terpisah dan dibagi lagi, demikian seterusnya sampai tercapai kriteria berhenti anak simpul yang tidak dapat disekat lagi yang disebut simpul akhir. Simpul akhir dilambangkan dengan kotak yaitu pada t 4, t 6, t 8, t 10, t 11, t 1, dan t 13. Simpul

18 dalam adalah simpul yang bisa disekat menjadi simpul anak, karena masih bisa disekat simpul ini dilambangkan dengan lingkaran yaitu pada t, t 3, t 5, t 7, dan t 9..4 Metode CHAID (Chi-Squared Automatic Interaction Detection) CHAID merupakan bagian dari teknik terdahulu yang dikenal dengan AID (Automatic Interaction Detection) yang digunakan untuk variabel respon kategorik dan suatu metode pohon klasifikasi yang menghasilkan pohon non biner (Kass, 1980). Didalam Kunto dan Hasana (006), metode CHAID akan membagi data ke dalam kelompok kelompok melalui beberapa tahapan. Tahapan pertama adalah membagi data menjadi beberapa kelompok berdasarkan satu variabel prediktor yang pengaruhnya paling signifikan terhadap variabel respon. Variabel prediktor yang signifikan ditentukan dengan khi-kuadrat. Setelah mendapatkan pembagian kelompok kelompok tersebut, periksa kelompok-kelompok tersebut secara terpisah untuk membagi lagi menjadi beberapa kelompok yang lebih kecil berdasarkan variabel prediktor yang lain. Hal tersebut dilakukan sampai tidak ditemukan lagi variabel variabel prediktor yang signifikan secara statistik. Pembangunan CHAID akan dihentikan ketika tidak ada lagi nilai khi-kuadrat yang signifikan dari variabel prediktor terhadap variabel responnya (Wilkinson, 199)..4.1 Variabel CHAID Menurut Gallagher (000), CHAID akan membedakan variabel-variabel prediktor kategorik menjadi tiga bentuk yang berbeda, yaitu:

19 1. Monotonik, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau digabungkan oleh CHAID hanya jika keduanya berdekatan satu sama lain, yaitu variabel-variabel yang kategorinya mengikuti urutan aslinya (data ordinal).. Bebas, yaitu variabel prediktor yang kategorinya dapat dikombinasikan atau digabungkan ketika keduanya berdekatan atau tidak satu sama lain (data nominal). 3. Mengambang, yaitu variabel prediktor yang kategori didalamnya dapat diperlakukan seperti monotonik kecuali untuk kategori yang missing value, yang dapat berkombinasi dengan kategori manapun..4. Algoritma CHAID Menurut Kass (1980) algoritma CHAID secara lengkap yaitu sebagai berikut: 1. Untuk setiap variabel prediktor, buat tabulasi silang kategori-kategori variabel prediktor dengan kategori-kategori variabel respon.. Untuk setiap tabulasi silang yang diperoleh (susun subtabel yang berukuran d yang mungkin, d adalah banyaknya kategori variabel respon) cari pasangan kategori variabel prediktor yang memiliki angka uji paling kecil. Jika angka uji tidak mencapai nilai kritis, gabungkan kedua kategori tersebut menjadi satu kategori campuran. Ulangi langkah ini sampai angka uji kategori campuran melampaui nilai kritis. 3. Untuk setiap kategori gabungan yang terbentuk dari 3 atau lebih kategori asal, temukan pemisahan biner yang memiliki angka uji yang paling besar

0 (pemisahan berdasarkan tipe variabel prediktor). Jika angka uji ini lebih besar dari nilai kritis, buatlah pemisahan tersebut dan kembali ke langkah di atas. 4. Untuk setiap tabulasi silang variabel prediktor yang telah digabungkan secara optimal, pilih yang memiliki angka uji paling besar. Jika angka uji ini lebih besar dari nilai kritis, bagilah data menurut kategori kategori yang telah digabungkan dari variabel prediktor yang telah dipilih. Pada tahap ini apabila terjadi pengurangan tabel kontingensi dari tabel asal maka gunakan uji koreksi Bonferoni dan jika tidak maka lakukan uji khi-kuadrat untuk uji signifikansi. 5. Untuk setiap pembagian data yang belum dianalisis, kembali ke langkah 1..4.3 Pohon Klasifikasi CHAID Menurut Myers dalam Kunto dan Hasana (006), diagram pohon CHAID mengikuti aturan dari atas ke bawah (Top-down stopping rule), diagram pohon disusun mulai dari kelompok induk, berlanjut di bawahnya sub kelompok yang berturut-turut dari hasil pembagian kelompok induk berdasarkan kriteria tertentu. Setiap simpul akan berisi keseluruhan sampel dan frekuensi absolut n i untuk tiap kategori yang disusun di atasnya. Pada pohon klasifikasi CHAID terdapat istilah kedalaman yang berarti banyaknya tingkatan simpul-simpul sub kelompok sampai ke bawah pada simpul sub kelompok yang terakhir. Pada kedalaman pertama, sampel dibagi oleh X 1 sebagai variabel prediktor terbaik untuk variabel respon berdasarkan uji khi-kuadrat. Tiap simpul berisi informasi tentang frekuensi variabel Y, sebagai variabel respon, yang merupakan bagian dari sub kelompok yang dihasilkan berdasarkan kategori yang disebutkan (X 1 ). Pada kedalaman ke- (simpul X dan X 3 ) merupakan pembagian dari X 1 (untuk simpul

1 ke-1 dan ke-3). Dengan cara yang sama, sampel selanjutnya dibagi oleh variabel prediktor yang lain, yaitu X dan X 3, dan selanjutnya menjadi sub kelompok pada simpul ke-4, 5, 6, dan 7. Secara umum diagram pohon dari CHAID adalah sebagai berikut (Lehmann dan Eherler, 001): Y ny = 1 ny = ny = 3 X1 1 3 n y = 1, x 1 = 1 n y =, x 1 = 1 n y = 3, x 1 = 1 n y = 1, x 1 = n y =, x 1 = n y = 3, x 1 = n y = 1, x 1 = 3 n y =, x 1 = 3 n y = 3, x 1 = 3 X X3 4 5 6 7 n y = 1, x 1 = 1, x = 1 n y = 1, x 1 = 1, x = n y = 1, x 1 = 3, x 3 = 1 n y = 1, x 1 = 3, x 3 = n y =, x 1 = 1, x = 1 n y =, x 1 = 1, x = n y =, x 1 = 3, x 3 = 1 n y =, x 1 = 3, x 3 = n y = 3, x 1 = 1, x = 1 n y = 3, x 1 = 1, x = n y = 3, x 1 = 3, x 3 = 1 n y = 3, x 1 = 3, x 3 = Gambar. Diagram Pohon dalam Analisis CHAID.5 Keakuratan dan Kesalahan Klasifikasi Persentase keakuratan klasifikasi (corret classification) dihitung untuk menaksir keakuratan klasifikasi secara keseluruhan, yaitu keakuratan klasifikasi dalam memprediksi kejadian secara keseluruhan yang dinyatakan sebagai nilai amatan yang secara tepat dapat diprediksi oleh model yaitu seperti diuraikan dalam Tabel.3. a+d n 100%, Selain keakuratan klasifikasi, bisa juga diketahui besarnya kesalahan klasifikasi (misclassification rate). Prediksi rata-rata kesalahan dapat diperoleh

dengan cara penggantian kembali (Abdelrahman & Hady, 010). Hasil persentase kesalahan klasifikasi penggantian kembali disebut rata-rata kesalahan yang nampak yaitu b+c n 100% seperti diuraikan dalam Tabel.3. Keakuratan dan kesalahan klasifikasi dapat diketahui dengan tabel klasifikasi sebagai berikut: Tabel.3 Hasil Klasifikasi Amatan Prediksi Total Keakuratan 1 0 1 a b a + b = n 1 a n 1 0 c d (c + d) = n 0 d n 0 Total a + c = n 1 b + d = n 0 (a + b + c + d) = n (a + d) Kesalahan c n 1 b (b + c) n n n 0.6 Perbedaan Metode QUEST dan CHAID Metode QUEST dan CHAID memiliki perbedaan dalam proses pembentukan pohon klasifikasi. QUEST menentukan penyekatan berdasarkan analisis diskriminan kuadratik dan hanya membentuk dua cabang untuk setiap pemisahannya. Sedangkan CHAID menentukan penyekatan berdasarkan uji khikuadrat dan membentuk dua atau lebih cabang untuk setiap pemisahannya. Pembentukan pohon CHAID akan berhenti ketika tidak ada lagi nilai khi-kuadrat yang signifikan dari variabel prediktor terhadap variabel respon. Berbeda dengan CHAID, QUEST akan berhenti ketika salah satu dari aturan penghentian tercapai atau sampai simpul tidak bisa disekat lagi dengan aturan penghentian pembentukan pohon.

Tabel.4 Ciri Metode QUEST dan CHAID Ciri QUEST CHAID Tipe variabel respon Kategorik Kategorik Tipe variabel prediktor Kategorik, numerik Kategorik Jumlah cabang pohon Penentuan simpul penyekat Diskriminan kuadratik Uji khi-kuadrat 3