BAB II LANDASAN TEORI. 2.1 Uji Hipotesis

dokumen-dokumen yang mirip
BAB II TINJAUAN PUSTAKA. konsep-konsep dasar pada QUEST dan CHAID, algoritma QUEST, algoritma

ANALISA FAKTOR PENYEBAB KREDIT MACET DENGAN METODE QUEST

PEMBENTUKAN POHON KLASIFIKASI BINER DENGAN ALGORITMA QUEST SKRIPSI SARJANA MATEMATIKA. Oleh: YONA MALANI

BAB III METODE POHON KLASIFIKASI QUEST

Amalia Maharani, Dewi Retno Sari Saputro, dan Bowo Winarno Program Studi Matematika FMIPA UNS

BAB III ANALISIS FAKTOR. berfungsi untuk mereduksi dimensi data dengan cara menyatakan variabel asal

S T A T I S T I K A OLEH : WIJAYA

BAB II LANDASAN TEORI

Bab 2 LANDASAN TEORI

PENERAPAN METODE QUICK, UNBIASED, EFFICIENT STATISTICAL TREES

ANALISIS RAGAM KLASIFIKASI 2 ARAH. b. Mengetahui perbedaan keragaman disebabkan perbedaan antarkolom. Kolom 1 2. j. c. Nilai rata I... R..

OLEH : WIJAYA FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2011

STATISTIKA. Muhamad Nursalman Pendilkom/Ilkom UPI

BAB III REGRESI LOGISTIK BINER DAN CLASSIFICATION AND REGRESSION TREES (CART) Odds Ratio

OLEH : WIJAYA FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2010

I. TINJAUAN PUSTAKA. distribusi normal multivariat, yaitu suatu kombinasi linier dari elemen-elemennya adalah

BAB 2 LANDASAN TEORI. Analisis regresi (regression analysis) merupakan suatu teknik untuk membangun

BAB 2 TINJAUAN TEORI

BAB III METODE PENELITIAN

METODE QUEST DAN CHAID PADA KLASIFIKASI KARAKTERISTIK NASABAH KREDIT

Oleh TRI SEPTIYANI M SKRIPSI ditulis dan diajukan untuk memenuhi sebagian persyaratan memperoleh gelar Sarjana Sains Matematika

aljabar geo g metr me i

BAB 2 LANDASAN TEORI

BAB III REGRESI TERSENSOR (TOBIT) Model regresi yang didasarkan pada variabel terikat tersensor disebut

ANALISIS VARIANSI. Utriweni Mukhaiyar. 2 November 2011

BAB II LANDASAN TEORI. landasan pembahasan pada bab selanjutnya. Pengertian-pengertian dasar yang di

Perancangan Percobaan

STATISTIKA II (BAGIAN

BAB 2 LANDASAN TEORI. 1. Analisis korelasi adalah metode statistika yang digunakan untuk menentukan

BAB II TINJAUAN PUSTAKA. Pengertian lanjut usia menurut undang-undang no.13/1998 tentang

BAB 2 LANDASAN TEORI

Perbedaan Analisis Univariat dan Multivariat

MA5283 STATISTIKA Bab 3 Inferensi Untuk Mean

BAB 2 LANDASAN TEORI

II. TINJAUAN PUSTAKA. dengan kendala menjadi model penuh tanpa kendala,

TINJAUAN PUSTAKA. i dari yang terkecil ke yang terbesar. Tebaran titik-titik yang membentuk garis lurus menunjukkan kesesuaian pola

10 Departemen Statistika FMIPA IPB

BAB 2 LANDASAN TEORI

TINJAUAN PUSTAKA Perilaku Pemilih Partai Politik

BAB I PENDAHULUAN. Universitas Pendidikan Indonesia repository.upi.edu

UJI HOMOGENITAS. Pada dasarnya uji homogenitas dimaksudkan untuk memperlihatkan bahwa dua atau lebih

BAB II TINJAUAN PUSTAKA

BAB I PENDAHULUAN. atau benda ke dalam golongan atau pola-pola tertentu berdasarkan kesamaan ciri.

BAB II LANDASAN TEORI. Data merupakan bentuk jamak dari datum. Data merupakan sekumpulan

BAB 2 LANDASAN TEORI. 1. Analisis Korelasi adalah metode statstika yang digunakan untuk menentukan

BAB III METODOLOGI 3.1 Waktu dan tempat penelitian 3.2 Alat dan bahan 3.3 Metode pengambilan data

PEMODELAN DENGAN REGRESI LOGISTIK. Secara umum, kedua hasil dilambangkan dengan (sukses) dan (gagal)

BEBERAPA DISTRIBUSI PELUANG KONTINU. Normal, Gamma, Eksponensial, Khi-Kuadrat, Student dan F

BAB 2 LANDASAN TEORI

Analisis Komponen Utama (Principal component analysis)

Aljabar Linear Elementer

BAB I PENDAHULUAN. sewajarnya untuk mempelajari cara bagaimana variabel-variabel itu dapat

Statistik Dasar. 1. Pendahuluan Persamaan Statistika Dalam Penelitian. 2. Penyusunan Data Dan Penyajian Data

II. TINJAUAN PUSTAKA. Dalam bab ini akan dibahas beberapa konsep dasar, definisi-definisi serta teorema

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB II TINJAUAN PUSTAKA. level, model regresi tiga level, penduga koefisien korelasi intraclass, pendugaan

METODE KLASIFIKASI BERSTRUKTUR POHON DENGAN ALGORITMA QUEST Wahidah Alwi Nur Azni Tahir

MODEL-MODEL LEBIH RUMIT

BAB 2 LANDASAN TEORI

REVIEW: DISTRIBUSI PELUANG KHUSUS & UJI HIPOTESIS. Utriweni Mukhaiyar MA2281 Statistika Nonparametrik Kamis, 21 Januari 2016

BAB 2 TINJAUAN TEORITIS. Metode statistik non parametrik atau sering juga disebut metode bebas sebaran

5 Departemen Statistika FMIPA IPB

Mata Kuliah: Statistik Inferensial

II. TINJAUAN PUSTAKA. Dalam proses penelitian untuk mengkaji karakteristik penduga GMM pada data

UJI HIPOTESIS SATU-SAMPEL

HASIL DAN PEMBAHASAN

PERTEMUAN 2 STATISTIKA DASAR MAT 130

Pengantar Statistika Matematika II

BAB 2 TINJAUAN TEORITIS. Tes Statistik Non Parametrik adalah test yang modelnya tidak menetapkan syaratsyaratnya

TINJAUAN PUSTAKA. Model Linier dengan n pengamatan dan p variable penjelas biasa ditulis sebagai

TINJAUAN PUSTAKA Analisis Gerombol

Analisis Variansi (ANOVA) Utriweni Mukhaiyar MA 2081 Statistika Dasar 13 November 2012

BAB III METODE CHAID EXHAUSTIVE

BAB 2 TINJAUAN TEORITIS. penjelasan tentang pola hubungan (model) antara dua variabel atau lebih.. Dalam

Skala pengukuran dan Ukuran Pemusatan. Ukuran Pemusatan

BAB 1 PENDAHULUAN. 1.1 Latar Belakang

BAB III HASIL ANALISIS

BAB III METODE PENELITIAN. September). Data yang dikumpulkan berupa data jasa pelayanan pelabuhan, yaitu

PERENCANAAN (planning) suatu percobaan untuk memperoleh INFORMASI YANG RELEVAN dengan TUJUAN dari penelitian

BAB IV HASIL DAN PEMBAHASAN. sebagai kelas kontrol. Penelitian ini bertujuan untuk mengetahui perbedaan

BAB IV MODEL HIDDEN MARKOV

BAB 2 LANDASAN TEORI. Bentuk umum persamaan regresi linier berganda adalah

BAB II TINJAUAN PUSTAKA. digunakan untuk menganalisis data dengan lebih dari satu peubah bebas

BAB 2 LANDASAN TEORI. Analisis regresi merupakan bentuk analisis hubungan antara variabel prediktor

BAB VI UJI PRASYARAT ANALISIS

BAB 2 TINJAUAN PUSTAKA

BAB III METODOLOGI PENELITIAN

BAB III PEREDUKSIAN RUANG INDIVIDU DENGAN ANALISIS KOMPONEN UTAMA. Analisis komponen utama adalah metode statistika multivariat yang

OLEH : WIJAYA. FAKULTAS PERTANIAN UNIVERSITAS SWADAYA GUNUNG JATI CIREBON 2009

BAB 2 KAJIAN PUSTAKA DAN LANDASAN TEORI. Dalam beberapa tahun terakhir, model graph secara statistik telah diaplikasikan

STATISTIKA. Statistika pengkuantifikasian (pengkuantitatifan) hasil-hasil pengamatan terhadap kejadian, keberadaan, sifat/karakterisitik, tempat, dll.

TINJAUAN PUSTAKA Analisis Biplot Biasa

22. MATEMATIKA SMA/MA (PROGRAM IPA)

Perancangan Percobaan

TINJAUAN PUSTAKA. Matriks adalah suatu susunan bilangan berbentuk segi empat. Bilangan-bilangan

11/8/2010 ANALISIS VARIANSI ILUSTRASI

PERCOBAAN SATU FAKTOR: RANCANGAN ACAK LENGKAP (RAL) Arum Handini Primandari, M.Sc.

METODE SCHEFFE DALAM UJI KOMPARASI GANDA ANALISIS VARIANS DUA FAKTOR DENGAN INTERAKSI

III OBJEK DAN METODE PENELITIAN. Objek penelitian ini menggunakan catatan reproduksi sapi FH impor

Teorema Newman Pearson

Transkripsi:

BAB II LANDASAN TEORI Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode QUEST, dan algoritme QUEST..1 Uji Hipotesis Ilmu statistika adalah ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan data, penyajian, analisis dan penafsiran data. secara umum, ilmu statistika dapat dikelompokkan menjadi dua kelompok, yaitu statistika deskriptif dan statistik inferensia. Statistika deskriptif merupakan metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia merupakan semua metode yang berhubungan dengan analisis sebagian data sehingga sampai pada penarikan kesimpulan mengenai keseluruhan data. Statistika inferensia dapat dilakukan dengan beberapa metode. Salah satunya adalah dengan pengujian hipotesis. Pengujian hipotesis adalah metode perumusan sejumlah kaidah yang akan menghasilkan suatu kesimpulan untuk menerima atau menolak suatu pernyataan tertentu. Langkah-langkah pengujian hipotesis dapat dibuat seperti berikut 1. Rumuskan hipotesis Hipotesis adalah pernyataan awal yang akan diuji dalam suatu pengujian hipotesis. Hipotesis awal (H 0 ) adalah hipotesis yang dirumuskan dengan harapan akan ditolak. Hipotesis alternatif (H 1 ) adalah hipotesis yang dirumuskan dengan harapan akan diterima.. Tetapkan taraf nyata pengujian ( ) merupakan galat pengujian dengan kesalahan jenis I, yaitu kesalahan karena menolak hipotesis awal yang benar. 4

3. Pilih statistik yang sesuai Statistik uji adalah nilai yang diambil dari data dan digunakan sebagai dasar menerima atau menolak hipotesis awal. 4. Tentukan titik kritis Titik kritis adalah suatu nilai yang menjadi batas untuk menerima atau menolak hipotesis awal. 5. Tentukan nilai statistik uji Nilai statistik uji diambil berdasarkan data. 6. Kesimpulan Jika statistik uji berada pada daerah kritis maka hipotesis awal ditolak. Jika statistik uji berada pada daerah penerimaan maka hipotesis awal diterima. Penarikan kesimpulan juga dapat dilakukan dengan membandingkan nilai dengan nilai p, yaitu jika p < maka hipotesis awal ditolak dan jika p > maka hipotesis awal diterima.. Metode Klasifikasi Berstruktur Pohon Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik kesimpulan mengenai hubungan antara suatu variabel respon dengan beberapa variabel bebas. Jika variabel respon berupa data kuantitatif maka analisis mengenai hubungan variabel bebas dan respon biasanya dilakukan melalui analisis regresi biasa. Namun, bila variabel respon merupakan data kualitatif maka analisis mengenai hubungan variabel bebas dan respon salah satunya dapat dilakukan melalui teknik klasifikasi. Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelaskelas variabel respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran terhadap satu variabel bebas atau lebih. Metode ini menghasilkan sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan dan secara berulang (rekursif) terhadap suatu himpunan data, dimana pengelompokan dan nilai-nilai variabel bebas setiap amatan pada data sampel 5

sudah diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk. Contoh Pohon klasifikasi QUEST terdapat pada Gambar 1. 1: X < a : Y b P Q R Gambar.1. Ilustrasi pohon klasifikasi menggunakan QUEST Gambar 1 menunjukkan ilustrasi pohon klasifikasi dengan QUEST. Misalnya, pada node 1 variabel X < a, maka respon termasuk kelas P (atau jika X a), dan jika pada node variabel Y b maka respon termasuk kelas Q; jika Y > b, maka respon termasuk kelas R. Proses penyekatan terhadap simpul dilakukan secara berulang sampai ditemukan salah satu dari tiga hal berikut a. respon di semua simpul sudah homogen nilainya, b. tidak ada lagi variabel bebas yang bisa digunakan, c. jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan pemisahan yang tepat. Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu simpul dapat bersifat biner atau non biner. Pada penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul baru, sedangkan pada penyekatan non biner setiap simpul dapat menghasilkan lebih dari dua simpul baru. Pohon yang dibentuk dari proses penyekatan tersebut dapat berukuran sangat besar. Bila pohon berukuran besar, biasanya penduga respon cenderung lebih tepat, tapi sulit diinterpretasikan. Bila pohon kecil, pohon mudah diinterpretasi namun penduga respon cenderung tidak tepat. Pohon terbaik yaitu pohon yang memiliki keseimbangan antara ukuran pohon dan ketepatan penduga respon (Faridhan, 003). 6

.3 Metode QUEST QUEST merupakan salah satu metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan algoritme pemisah yang menghasilkan pohon biner yang digunakan untuk klasifikasi. Algoritme pembentukan pohon klasifikasi ini merupakan modifikasi dari analisis diskriminan kuadratik. Pada algoritme ini, proses penyekatan dapat dilakukan pada variabel tunggal (univariat). Pemilihan variabel penyekat pada QUEST menerapkan uji kebebasan chi-kuadrat untuk variabel kategorik dan uji F untuk variabel numerik. Suatu variabel dipilih sebagai variabel penyekat jika menghasilkan kelompok dengan tingkat kehomogenan variabel respon yang paling besar. Penentuan variabel penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis diskriminan kuadratik. Pemilihan variabel dan penentuan variabel penyekat dilakukan secara terpisah. Komponen dasar QUEST adalah beberapa variabel bebas yang merupakan variabel kategorik atau numerik dan variabel respon yang merupakan variabel kategorik (Hothorn, 006)..3.1 Uji chi-kuadrat untuk kebebasan Apabila antara dua variabel tidak ada hubungan, maka dapat dikatakan bahwa keduanya saling bebas. Meskipun nilai salah satu variabel untuk suatu objek diketahui, ini tidak akan membantu dalam menentukan nilai variabel yang lain untuk objek yang sama (Lestari, 005). Uji Chi-kuadrat untuk memeriksa kebebasan digunakan untuk memutuskan apakah dua variabel kategorik dalam suatu kelompok saling bebas. Uji ini memiliki asumsi-asumsi, a. Data terdiri dari sebuah sampel acak sederhana berukuran n dari suatu populasi yang diminati. b. Hasil pengamatan dalam sampel dapat diklasifikasi secara silang (crossclasified) menurut variabel-variabel yang diamati. Pengklasifikasian silang dari data dengan variabel kategorik biasanya disajikan dalam tabel kontingensi dua arah atau lebih. Bila terdapat dua variabel kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada Tabel.1. 7

Tabel.1 Tabel Kontingensi Dua Arah Kategori variabel Kategori variabel kedua pertama 1 c Jumlah 1 n 11 n 1 n 1c n 1. n 1 n n c n. r n r1 n r n rc n r. Jumlah n.1 n. n.c n Tabel disusun dari r baris dan c kolom dengan r dan c masing-masing adalah banyaknya kategori dari variabel kategorik pertama dan kedua. Isi sel pada baris-i (i = 1,,, r) dan kolom ke-j (j = 1,,, c) adalah banyaknya pengamatan yang berasal dari kategori-i variabel pertama dan kategori-j variabel kedua, bisa dinotasikan dengan n ij. Isi sel ini disebut juga frekuensi sel teramati yang biasa ditulis dengan notasi O ij, sehingga O ij = n ij. Jumlah frekuensi teramati pada kategori ke-i variabel pertama, ditulis dengan notasi n i., sedangkan jumlah frekuensi teramati pada kategori ke-j variabel kedua, ditulis dengan notasi n.j (Praptono, 1986). Hipotesis awal (H 0 ) yang digunakan dalam uji ini adalah kedua variabel saling bebas. Hipotesis alternatif (H 1 ) pada uji ini adalah kedua variabel tidak saling bebas. Uji chi-kuadrat ini dilakukan dengan membandingkan frekuensi teramati dengan frekuensi yang diharapkan jika (H 0 ) benar. Dalam menentukan frekuensi yang diharapkan pada suatu sel digunakan hukum peluang mengenai kebebasan dua kejadian seperti dinyatakan dalam Teorema.1. Teorema. 1. (Walpole, 199) Bila dua kejadian A dan B bebas, maka P(A B) = P(A)P(B). Jika A i adalah kejadian objek berasal dari kategori ke-i variabel pertama dan B j adalah kejadian objek berasal dari kategori ke-j variabel kedua, maka peluang kejadian A i dan B j terjadi bersama adalah 8

P(A i B j ) = ( E ij n ), dengan E ij adalah frekuensi yang diharapkan dan n adalah banyaknya data. Jika A i dan B j saling bebas, maka P(A i B j ) = P(A i )P(B j ) = ( n i. n ) (n.j n ) (1) Dengan demikian, ( n i. n ) (n.j n ) = E ij n, sehingga E ij = n ( n i. n ) (n.j n ) = (n i.n.j n ) () Dari ferkuensi sel yang teramati (O ij ) dan frekuensi sel yang diharapkan (E ij ) tersebut dapat dihitung suatu statistik uji chi-kuadrat (χ ) yang mencerminkan perbedaan antara keduanya, yang dirumuskan dengan χ = [ (O ij E ij ) r c i=1 j=1 ] (3) E ij Dalam pengambilan keputusan, H 0 ditolak pada taraf nyata jika nilai statistik uji χ hasil perhitungan lebih besar dari pada nilai χ α,r 1,c 1, r adalah banyaknya baris dan c adalah banyaknya kolom..3. Uji ANAVA F Uji ANAVA F biasa digunakan untuk membandingkan rata-rata dari dua atau lebih kelompok sampel yang saling bebas. Ukuran sampel masing-masing kelompok sampel tidak harus sama, tetapi perbedaan yang besar dalam ukuran sampel dapat mempengaruhi hasil uji perbandingan rata-rata. Misalkan χ ki merupakan pengamatan ke-i dari kelompok ke-k, maka dapat disajikan struktur data seperti pada Tabel.. Tabel.. Tabel Struktur Data ANAVA F Kelompok 1 K x 11 x 1 x K1 x 1 x x K 9

x 1n1 x n x KnK Jumlah X 1. X. X K. X.. Rata-rata x 1. x. x K. x. Bila μ k adalah rata-rata dari kelompok ke-k (k = 1,,, K) maka hipotesis yang digunakan dalam uji ini H 0 μ 1 = μ = = μ K H 1 ada μ k μ k, k k (k, k = 1,,, K) Statistik uji yang digunakan adalah statistik uji F yang diperoleh pada Tabel.3. Tabel.3 Tabel ANAVA F Sumber Variansi Jumlah Derajat Nilai tengah kolom Sisaan JKK JKS Bebas k 1 n k Total JKT n 1 Kuadrat Tengah s 1 = JKK k 1 s = JKS n k F hitung F = s 1 s dengan K K JKK = ( X k. X.. ) n k N K k=1 JKS = ( x ki X.. ) ( X k. X.. ) N n k N k=1 k=1 i = 1,,, n k, k = 1,,, K. N : jumlah seluruh data K : jumlah kelompok n k : ukuran contoh kelompok ke-k K k=1 10

X k. : jumlah pengamatan kelompok ke-k X.. : jumlah pengamatan seluruh data x ki : pengamatan ke-i dari kelompok ke-k Dalam pengambilan keputusan, H 0 ditolak pada taraf signifikan jika nilai statistik uji F hasil perhitungan lebih besar daripada nilai F α,k 1,N K..3.3 Uji Levene F Uji Levene F digunakan untuk menguji kesamaan variansi variabel dari dua kelompok atau lebih. Hipotesis yang digunakan dalam uji ini adalah H 0 σ 1 = σ = = σ k H 1 ada σ k σ k, k k (k, k = 1,,, K), Untuk mendapatkan statistik uji ini, data ditransformasikan dahulu menjadi simpangan baku terhadap nilai tengah data, yaitu y ki = x ki x k, dengan : i = 1,,, n. k = 1,,, K y ki hasil transformasi data pengamatan ke-i dari kelompok ke-k x k : nilai tengah sampel kelompok ke-k x ki : pengamatan ke-i dari kelompok ke-k. Lakukan statistik uji ANAVA F pada data yang telah ditransformasi untuk mendapatkan nilai statistik uji Levene F. Dalam pengambilan keputusan, H 0 ditolak pada taraf nyata α jika nilai statistik uji Levene F hasil perhitungan lebih besar dari pada nilai F α,k 1,N K..3.4 Analisis diskriminan kuadratik Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan statistik terhadap objek-objek yang telah diketahui dengan jelas dan tepat pengelompokannya. 11

Fungsi diskriminan dapat disebut dengan fungsi pembeda. Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks variansi yang sama dinamakan fungsi diskriminan linier, sedangkan fungsi yang dibangun tanpa asumsi tersebut dinamakan fungsi diskriminan kuadratik. Misalkan x = (x 1, x,, x p ), maka dapat disajikan struktur data seperti pada Tabel.4. Tabel.4. Tabel Struktur Data Analisis Diskriminan Kuadratik Variabel Kelompok 1 K X 1 x 11 x 1 x 1K X 1 x 1 x x 1K X 1 x p1 x p x pk Misalkan f k (x) adalah fungsi kepekatan peluang bersama dari sampel acak yang berasal dari kelompok ke-k (k = 1,,, K). Jika sampel acak pada kelompok tersebut menyebar menurut sebaran multivariat, maka f k (x) = dengan 1 (π) p/ Σ k 1/ exp * 1 (x μ k) t Σ k 1 (x μ k )+ (.6.1) μ k adalah vektor nilai tengah kelompok ke-k Σ k adalah matriks variansi kelompok ke-k p adalah banyaknya variabel, Nilai diskriminan kuadratik untuk sebuah pengamatan dengan nilai x = (x 1, x,, x p ) terhadap kelompok ke-k adalah d k Q (x ) = 1 ln Σ k 1 (x μ k) t Σ k 1 (x μ k ) + lnp k. (.6.) dengan p k adalah peluang awal dari kelompok ke-k (k = 1,,, K). 1

Apabila individu yang berasal dari kelompok k dinyatakan sebagai kelompok a, maka peluangnya dinotasikan menjadi P(a k). Kelompokkan x ke-k jika nilai kuadratik d Q k (x ) = max*d Q 1 (x ), d Q (x ),, d Q k (x )+ (.6.3). Dalam prakteknya, μ k dan Σ k tidak diketahui, tetapi data sampel yang telah dikelompokkan secara benar tersedia untuk mengetahui taksiran μ k dan Σ k. Kuantitas sampel yang relevan untuk kelompok ke-k adalah x k : vektor nilai tengah sampel dari kelompok ke-k S k : matriks variansi sampel dari kelompok ke-k n k : ukuran sampel dari kelompok ke-k. Taksiran dari nilai diskriminan kuadratik : d Q k (x ) = 1 ln S k 1 (x x k) t S 1 k (x x k) + lnp k (.6.4). Kelompokkan x ke-k jika nilai kuadratik d Q k (x ) = max *d Q 1 (x ), d Q (x ),, d Q k (x )+ (.6.5)..4 Algoritme QUEST Loh and Shih (1997) menjelaskan algoritme pembentukan pohon pada QUEST dipisah menjadi tiga bagian, yaitu algoritme pemilihan variabel penyekat, algoritme penentuan variabel penyekat dan algoritme transformasi variabel kategorik menjadi variabel numerik..4.1 Algoritme pemilihan variabel penyekat Dalam tulisan ini akan dibahas algoritme pemilihan variabel penyekat berupa satu variabel. Dalam menentukan variabel penyekat pada suatu simpul setiap variabel memiliki kesempatan untuk terpilih sebagai variabel penyekat, meskipun variabel tersebut telah terpilih sebagai variabel penyekat untuk simpul sebelumnya. Berikut ini adalah langkah-langkah pemilihan variabel penyekat : 1. Untuk setiap variabel X : 13

a. Jika X merupakan variabel kategorik, lakukan uji X untuk kebebasan antara variabel X dan variabel respon Y dan hitung nilai p dari pengujian tersebut. b. Jika X merupakan variabel numerik, lakukan uji ANAVA F dan hitung nilai p dari pengujian tersebut.. Pilih variabel dengan nilai p terkecil. 3. Bandingkan nilai p terkecil dengan taraf α/m1, dengan memilih taraf nyata α = 0,05 dan M1 adalah banyaknya variabel bebas. a. Jika nilai p kurang dari α/m1, maka variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). b. Jika nilai p lebih dari α/m1, teruskan ke langkah (4). 4. Untuk setiap variabel X yang numerik, maka hitung nilai p dari uji Levene untuk menguji kehomogenan variansi. a. Pilih variabel dengan nilai p terkecil. c. Bandingkan nilai p terkecil dari uji Levene dengan taraf α. d. Jika nilai p kurang dari α, maka pilih variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). e. Jika nilai p lebih dari α, maka variabel tersebut tidak dipilih menjadi variabel penyekat. 5. Misalkan X adalah variabel penyekat yang diperoleh dari langkah (3) atau (4). a. Jika X merupakan variabel numerik, maka teruskan ke langkah (6). b. Jika X merupakan variabel kategorik, X ditransformasikan ke dalam variabel dummy, lalu proyeksikan ke dalam koordinat diskriminan terbesarnya 6. Lakukan analisis diskriminan kuadratik untuk menentukan variabel penyekat..4. Algoritme penentuan variabel penyekat Misalkan variabel respon memiliki dua kategori. Misalkan pula bahwa X merupakan variabel yang terpilih untuk menyekat simpul t. 14

1. Didefinisikan x 0 dan s 0 adalah rata-rata dan variansi X dari pengamatan respon 0, sedangkan x 1 dan s 1 adalah rata-rata dan variansi X dari pengamatan dengan respon 1. Misalkan P(k t) = N k,t /N k merupakan peluang dari masing-masing kategori variabel respon, dengan N k,t adalah jumlah data pada simpul t untuk respon k dan N k adalah jumlah data pada simpul awal untuk respon k.. Tentukan penyelesaian persamaan P(0 t)s 1 0 φ ( x x 0 ) = P(1 t)s 1 s 1 φ ( x x 1 ). 0 s 1 Penyelesaian tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat ax + bx + c = 0, dengan a = s 0 s 1 b = (x 0s 1 x 1s 0 ) c = (x 1s 0 ) (x 0s 1 ) + s 0 s 1 ln { P(0 t)s 1 P(1 t)s 0 } 3. Simpul disekat pada variabel x = d, di mana d didefinisikan sebagai berikut : a. Jika x 0 < x 1, maka d = x 0 b. Jika a = 0, maka x 0 + x 1 (x 0 x 1) d = { 1 s 0 ln { P(0 t) P(1 t) }, x 0 x 1} c. Jika a 0, maka: x 0, x 0 = x 1 i. Jika b 4ac < 0, maka d = 1 (x 0 + x 1) ii. Jika b 4ac 0, maka : a. d adalah akar dari b± b 4ac a yang lebih mendekati nilai x 0, dengan syarat menghasilkan dua simpul tak kosong. b. Untuk d yang lain, d = 1 (x 0 + x 1). 15

.4.3 Algoritme transformasi variabel kategorik menjadi variabel numerik Misalkan X adalah variabel kategorik, dengan kategori b 1, b,, b L. Transformasi X menjadi variabel numerik ξ untuk setiap kelas X dilakukan dengan langkah-langkah sebagai berikut : 1. Transformasikan masing-masing nilai x ke vektor dummy L dimensi v = (v 1, v,, v L ), Dengan v 1 = { 1 x = b 1 0 x b 1, l = 1,,, L. Mencari nilai tengah untuk X v = dengan v L l=1 f lv l L l=1 N k,t N t v (k) = n lv l : rata-rata untuk semua pengamatan pada simpul t v (k) : rata-rata untuk semua pengamatan pada simpul t untuk kelompok ke-k f l : jumlah pengamatan pada simpul t untuk v l n l : jumlah pengamatan pada simpul t kelompok ke-k untuk v l N t : jumlah pengamatan pada simpul t N k,t : jumlah pengamatan pada simpul t untuk kelompok ke-k. 3. Tentukan matriks L L berikut v = L l=1 f lv l N t v (k) = L l=1 n lv l N k,t K B = N k,t (v (k) v )(v (k) v ) k=1 L T = f l (v l v )(v l v ) l=1 4. Lakukan SVD dari T = QDQ, dengan Q adalah matriks orthogonal L L, D = diag(d 1,, d L ) dengan d 1 d d L 0. 5. Tentukan D 1 = diag(d 1,, d L ), 16

dengan d i = { d i 1/ jika d i > 0 0 lainnya. 6. Lakukan SVD dari D 1 Q BQD 1, tentukan vektor eigen a yang merupakan vektor eigen yang sama dengan nilai eigen terbesar. 7. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = a D 1 Q v 17