BAB II LANDASAN TEORI Pada bab ini akan dibahas tentang pengujian hipotesis, metode klasifikasi berstruktur pohon, metode-metode statistika yang menjadi dasar pada metode QUEST, dan algoritme QUEST..1 Uji Hipotesis Ilmu statistika adalah ilmu yang mempelajari prosedur-prosedur yang digunakan dalam pengumpulan data, penyajian, analisis dan penafsiran data. secara umum, ilmu statistika dapat dikelompokkan menjadi dua kelompok, yaitu statistika deskriptif dan statistik inferensia. Statistika deskriptif merupakan metode-metode yang berkaitan dengan pengumpulan dan penyajian data sehingga memberikan informasi yang berguna, sedangkan statistika inferensia merupakan semua metode yang berhubungan dengan analisis sebagian data sehingga sampai pada penarikan kesimpulan mengenai keseluruhan data. Statistika inferensia dapat dilakukan dengan beberapa metode. Salah satunya adalah dengan pengujian hipotesis. Pengujian hipotesis adalah metode perumusan sejumlah kaidah yang akan menghasilkan suatu kesimpulan untuk menerima atau menolak suatu pernyataan tertentu. Langkah-langkah pengujian hipotesis dapat dibuat seperti berikut 1. Rumuskan hipotesis Hipotesis adalah pernyataan awal yang akan diuji dalam suatu pengujian hipotesis. Hipotesis awal (H 0 ) adalah hipotesis yang dirumuskan dengan harapan akan ditolak. Hipotesis alternatif (H 1 ) adalah hipotesis yang dirumuskan dengan harapan akan diterima.. Tetapkan taraf nyata pengujian ( ) merupakan galat pengujian dengan kesalahan jenis I, yaitu kesalahan karena menolak hipotesis awal yang benar. 4
3. Pilih statistik yang sesuai Statistik uji adalah nilai yang diambil dari data dan digunakan sebagai dasar menerima atau menolak hipotesis awal. 4. Tentukan titik kritis Titik kritis adalah suatu nilai yang menjadi batas untuk menerima atau menolak hipotesis awal. 5. Tentukan nilai statistik uji Nilai statistik uji diambil berdasarkan data. 6. Kesimpulan Jika statistik uji berada pada daerah kritis maka hipotesis awal ditolak. Jika statistik uji berada pada daerah penerimaan maka hipotesis awal diterima. Penarikan kesimpulan juga dapat dilakukan dengan membandingkan nilai dengan nilai p, yaitu jika p < maka hipotesis awal ditolak dan jika p > maka hipotesis awal diterima.. Metode Klasifikasi Berstruktur Pohon Dalam statistika, terdapat berbagai metode yang dapat digunakan dalam menarik kesimpulan mengenai hubungan antara suatu variabel respon dengan beberapa variabel bebas. Jika variabel respon berupa data kuantitatif maka analisis mengenai hubungan variabel bebas dan respon biasanya dilakukan melalui analisis regresi biasa. Namun, bila variabel respon merupakan data kualitatif maka analisis mengenai hubungan variabel bebas dan respon salah satunya dapat dilakukan melalui teknik klasifikasi. Metode klasifikasi berstruktur pohon merupakan metode statistika yang digunakan untuk memperkirakan keanggotaan amatan atau objek dalam kelaskelas variabel respon kategorik, yang keanggotaannya diduga berdasarkan pengukuran terhadap satu variabel bebas atau lebih. Metode ini menghasilkan sebuah pohon klasifikasi (classification tree) yang dibentuk melalui penyekatan dan secara berulang (rekursif) terhadap suatu himpunan data, dimana pengelompokan dan nilai-nilai variabel bebas setiap amatan pada data sampel 5
sudah diketahui. Setiap himpunan data dinyatakan sebagai simpul dalam pohon yang terbentuk. Contoh Pohon klasifikasi QUEST terdapat pada Gambar 1. 1: X < a : Y b P Q R Gambar.1. Ilustrasi pohon klasifikasi menggunakan QUEST Gambar 1 menunjukkan ilustrasi pohon klasifikasi dengan QUEST. Misalnya, pada node 1 variabel X < a, maka respon termasuk kelas P (atau jika X a), dan jika pada node variabel Y b maka respon termasuk kelas Q; jika Y > b, maka respon termasuk kelas R. Proses penyekatan terhadap simpul dilakukan secara berulang sampai ditemukan salah satu dari tiga hal berikut a. respon di semua simpul sudah homogen nilainya, b. tidak ada lagi variabel bebas yang bisa digunakan, c. jumlah objek di dalam simpul sudah terlalu sedikit untuk menghasilkan pemisahan yang tepat. Dalam pembentukan pohon klasifikasi, proses penyekatan terhadap suatu simpul dapat bersifat biner atau non biner. Pada penyekatan biner, setiap simpul hanya boleh disekat menjadi dua simpul baru, sedangkan pada penyekatan non biner setiap simpul dapat menghasilkan lebih dari dua simpul baru. Pohon yang dibentuk dari proses penyekatan tersebut dapat berukuran sangat besar. Bila pohon berukuran besar, biasanya penduga respon cenderung lebih tepat, tapi sulit diinterpretasikan. Bila pohon kecil, pohon mudah diinterpretasi namun penduga respon cenderung tidak tepat. Pohon terbaik yaitu pohon yang memiliki keseimbangan antara ukuran pohon dan ketepatan penduga respon (Faridhan, 003). 6
.3 Metode QUEST QUEST merupakan salah satu metode yang digunakan untuk membentuk pohon klasifikasi. QUEST merupakan algoritme pemisah yang menghasilkan pohon biner yang digunakan untuk klasifikasi. Algoritme pembentukan pohon klasifikasi ini merupakan modifikasi dari analisis diskriminan kuadratik. Pada algoritme ini, proses penyekatan dapat dilakukan pada variabel tunggal (univariat). Pemilihan variabel penyekat pada QUEST menerapkan uji kebebasan chi-kuadrat untuk variabel kategorik dan uji F untuk variabel numerik. Suatu variabel dipilih sebagai variabel penyekat jika menghasilkan kelompok dengan tingkat kehomogenan variabel respon yang paling besar. Penentuan variabel penyekat pada pohon klasifikasi ini dilakukan dengan menerapkan analisis diskriminan kuadratik. Pemilihan variabel dan penentuan variabel penyekat dilakukan secara terpisah. Komponen dasar QUEST adalah beberapa variabel bebas yang merupakan variabel kategorik atau numerik dan variabel respon yang merupakan variabel kategorik (Hothorn, 006)..3.1 Uji chi-kuadrat untuk kebebasan Apabila antara dua variabel tidak ada hubungan, maka dapat dikatakan bahwa keduanya saling bebas. Meskipun nilai salah satu variabel untuk suatu objek diketahui, ini tidak akan membantu dalam menentukan nilai variabel yang lain untuk objek yang sama (Lestari, 005). Uji Chi-kuadrat untuk memeriksa kebebasan digunakan untuk memutuskan apakah dua variabel kategorik dalam suatu kelompok saling bebas. Uji ini memiliki asumsi-asumsi, a. Data terdiri dari sebuah sampel acak sederhana berukuran n dari suatu populasi yang diminati. b. Hasil pengamatan dalam sampel dapat diklasifikasi secara silang (crossclasified) menurut variabel-variabel yang diamati. Pengklasifikasian silang dari data dengan variabel kategorik biasanya disajikan dalam tabel kontingensi dua arah atau lebih. Bila terdapat dua variabel kategorik, data disajikan dalam tabel kontingensi dua arah seperti pada Tabel.1. 7
Tabel.1 Tabel Kontingensi Dua Arah Kategori variabel Kategori variabel kedua pertama 1 c Jumlah 1 n 11 n 1 n 1c n 1. n 1 n n c n. r n r1 n r n rc n r. Jumlah n.1 n. n.c n Tabel disusun dari r baris dan c kolom dengan r dan c masing-masing adalah banyaknya kategori dari variabel kategorik pertama dan kedua. Isi sel pada baris-i (i = 1,,, r) dan kolom ke-j (j = 1,,, c) adalah banyaknya pengamatan yang berasal dari kategori-i variabel pertama dan kategori-j variabel kedua, bisa dinotasikan dengan n ij. Isi sel ini disebut juga frekuensi sel teramati yang biasa ditulis dengan notasi O ij, sehingga O ij = n ij. Jumlah frekuensi teramati pada kategori ke-i variabel pertama, ditulis dengan notasi n i., sedangkan jumlah frekuensi teramati pada kategori ke-j variabel kedua, ditulis dengan notasi n.j (Praptono, 1986). Hipotesis awal (H 0 ) yang digunakan dalam uji ini adalah kedua variabel saling bebas. Hipotesis alternatif (H 1 ) pada uji ini adalah kedua variabel tidak saling bebas. Uji chi-kuadrat ini dilakukan dengan membandingkan frekuensi teramati dengan frekuensi yang diharapkan jika (H 0 ) benar. Dalam menentukan frekuensi yang diharapkan pada suatu sel digunakan hukum peluang mengenai kebebasan dua kejadian seperti dinyatakan dalam Teorema.1. Teorema. 1. (Walpole, 199) Bila dua kejadian A dan B bebas, maka P(A B) = P(A)P(B). Jika A i adalah kejadian objek berasal dari kategori ke-i variabel pertama dan B j adalah kejadian objek berasal dari kategori ke-j variabel kedua, maka peluang kejadian A i dan B j terjadi bersama adalah 8
P(A i B j ) = ( E ij n ), dengan E ij adalah frekuensi yang diharapkan dan n adalah banyaknya data. Jika A i dan B j saling bebas, maka P(A i B j ) = P(A i )P(B j ) = ( n i. n ) (n.j n ) (1) Dengan demikian, ( n i. n ) (n.j n ) = E ij n, sehingga E ij = n ( n i. n ) (n.j n ) = (n i.n.j n ) () Dari ferkuensi sel yang teramati (O ij ) dan frekuensi sel yang diharapkan (E ij ) tersebut dapat dihitung suatu statistik uji chi-kuadrat (χ ) yang mencerminkan perbedaan antara keduanya, yang dirumuskan dengan χ = [ (O ij E ij ) r c i=1 j=1 ] (3) E ij Dalam pengambilan keputusan, H 0 ditolak pada taraf nyata jika nilai statistik uji χ hasil perhitungan lebih besar dari pada nilai χ α,r 1,c 1, r adalah banyaknya baris dan c adalah banyaknya kolom..3. Uji ANAVA F Uji ANAVA F biasa digunakan untuk membandingkan rata-rata dari dua atau lebih kelompok sampel yang saling bebas. Ukuran sampel masing-masing kelompok sampel tidak harus sama, tetapi perbedaan yang besar dalam ukuran sampel dapat mempengaruhi hasil uji perbandingan rata-rata. Misalkan χ ki merupakan pengamatan ke-i dari kelompok ke-k, maka dapat disajikan struktur data seperti pada Tabel.. Tabel.. Tabel Struktur Data ANAVA F Kelompok 1 K x 11 x 1 x K1 x 1 x x K 9
x 1n1 x n x KnK Jumlah X 1. X. X K. X.. Rata-rata x 1. x. x K. x. Bila μ k adalah rata-rata dari kelompok ke-k (k = 1,,, K) maka hipotesis yang digunakan dalam uji ini H 0 μ 1 = μ = = μ K H 1 ada μ k μ k, k k (k, k = 1,,, K) Statistik uji yang digunakan adalah statistik uji F yang diperoleh pada Tabel.3. Tabel.3 Tabel ANAVA F Sumber Variansi Jumlah Derajat Nilai tengah kolom Sisaan JKK JKS Bebas k 1 n k Total JKT n 1 Kuadrat Tengah s 1 = JKK k 1 s = JKS n k F hitung F = s 1 s dengan K K JKK = ( X k. X.. ) n k N K k=1 JKS = ( x ki X.. ) ( X k. X.. ) N n k N k=1 k=1 i = 1,,, n k, k = 1,,, K. N : jumlah seluruh data K : jumlah kelompok n k : ukuran contoh kelompok ke-k K k=1 10
X k. : jumlah pengamatan kelompok ke-k X.. : jumlah pengamatan seluruh data x ki : pengamatan ke-i dari kelompok ke-k Dalam pengambilan keputusan, H 0 ditolak pada taraf signifikan jika nilai statistik uji F hasil perhitungan lebih besar daripada nilai F α,k 1,N K..3.3 Uji Levene F Uji Levene F digunakan untuk menguji kesamaan variansi variabel dari dua kelompok atau lebih. Hipotesis yang digunakan dalam uji ini adalah H 0 σ 1 = σ = = σ k H 1 ada σ k σ k, k k (k, k = 1,,, K), Untuk mendapatkan statistik uji ini, data ditransformasikan dahulu menjadi simpangan baku terhadap nilai tengah data, yaitu y ki = x ki x k, dengan : i = 1,,, n. k = 1,,, K y ki hasil transformasi data pengamatan ke-i dari kelompok ke-k x k : nilai tengah sampel kelompok ke-k x ki : pengamatan ke-i dari kelompok ke-k. Lakukan statistik uji ANAVA F pada data yang telah ditransformasi untuk mendapatkan nilai statistik uji Levene F. Dalam pengambilan keputusan, H 0 ditolak pada taraf nyata α jika nilai statistik uji Levene F hasil perhitungan lebih besar dari pada nilai F α,k 1,N K..3.4 Analisis diskriminan kuadratik Analisis diskriminan bertujuan untuk membentuk fungsi diskriminan yang mampu membedakan kelompok. Analisis ini dilakukan berdasarkan suatu perhitungan statistik terhadap objek-objek yang telah diketahui dengan jelas dan tepat pengelompokannya. 11
Fungsi diskriminan dapat disebut dengan fungsi pembeda. Fungsi diskriminan yang dibangun dengan asumsi bahwa kelompok-kelompok memiliki matriks variansi yang sama dinamakan fungsi diskriminan linier, sedangkan fungsi yang dibangun tanpa asumsi tersebut dinamakan fungsi diskriminan kuadratik. Misalkan x = (x 1, x,, x p ), maka dapat disajikan struktur data seperti pada Tabel.4. Tabel.4. Tabel Struktur Data Analisis Diskriminan Kuadratik Variabel Kelompok 1 K X 1 x 11 x 1 x 1K X 1 x 1 x x 1K X 1 x p1 x p x pk Misalkan f k (x) adalah fungsi kepekatan peluang bersama dari sampel acak yang berasal dari kelompok ke-k (k = 1,,, K). Jika sampel acak pada kelompok tersebut menyebar menurut sebaran multivariat, maka f k (x) = dengan 1 (π) p/ Σ k 1/ exp * 1 (x μ k) t Σ k 1 (x μ k )+ (.6.1) μ k adalah vektor nilai tengah kelompok ke-k Σ k adalah matriks variansi kelompok ke-k p adalah banyaknya variabel, Nilai diskriminan kuadratik untuk sebuah pengamatan dengan nilai x = (x 1, x,, x p ) terhadap kelompok ke-k adalah d k Q (x ) = 1 ln Σ k 1 (x μ k) t Σ k 1 (x μ k ) + lnp k. (.6.) dengan p k adalah peluang awal dari kelompok ke-k (k = 1,,, K). 1
Apabila individu yang berasal dari kelompok k dinyatakan sebagai kelompok a, maka peluangnya dinotasikan menjadi P(a k). Kelompokkan x ke-k jika nilai kuadratik d Q k (x ) = max*d Q 1 (x ), d Q (x ),, d Q k (x )+ (.6.3). Dalam prakteknya, μ k dan Σ k tidak diketahui, tetapi data sampel yang telah dikelompokkan secara benar tersedia untuk mengetahui taksiran μ k dan Σ k. Kuantitas sampel yang relevan untuk kelompok ke-k adalah x k : vektor nilai tengah sampel dari kelompok ke-k S k : matriks variansi sampel dari kelompok ke-k n k : ukuran sampel dari kelompok ke-k. Taksiran dari nilai diskriminan kuadratik : d Q k (x ) = 1 ln S k 1 (x x k) t S 1 k (x x k) + lnp k (.6.4). Kelompokkan x ke-k jika nilai kuadratik d Q k (x ) = max *d Q 1 (x ), d Q (x ),, d Q k (x )+ (.6.5)..4 Algoritme QUEST Loh and Shih (1997) menjelaskan algoritme pembentukan pohon pada QUEST dipisah menjadi tiga bagian, yaitu algoritme pemilihan variabel penyekat, algoritme penentuan variabel penyekat dan algoritme transformasi variabel kategorik menjadi variabel numerik..4.1 Algoritme pemilihan variabel penyekat Dalam tulisan ini akan dibahas algoritme pemilihan variabel penyekat berupa satu variabel. Dalam menentukan variabel penyekat pada suatu simpul setiap variabel memiliki kesempatan untuk terpilih sebagai variabel penyekat, meskipun variabel tersebut telah terpilih sebagai variabel penyekat untuk simpul sebelumnya. Berikut ini adalah langkah-langkah pemilihan variabel penyekat : 1. Untuk setiap variabel X : 13
a. Jika X merupakan variabel kategorik, lakukan uji X untuk kebebasan antara variabel X dan variabel respon Y dan hitung nilai p dari pengujian tersebut. b. Jika X merupakan variabel numerik, lakukan uji ANAVA F dan hitung nilai p dari pengujian tersebut.. Pilih variabel dengan nilai p terkecil. 3. Bandingkan nilai p terkecil dengan taraf α/m1, dengan memilih taraf nyata α = 0,05 dan M1 adalah banyaknya variabel bebas. a. Jika nilai p kurang dari α/m1, maka variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). b. Jika nilai p lebih dari α/m1, teruskan ke langkah (4). 4. Untuk setiap variabel X yang numerik, maka hitung nilai p dari uji Levene untuk menguji kehomogenan variansi. a. Pilih variabel dengan nilai p terkecil. c. Bandingkan nilai p terkecil dari uji Levene dengan taraf α. d. Jika nilai p kurang dari α, maka pilih variabel yang bersesuaian sebagai variabel penyekat. Teruskan ke langkah (5). e. Jika nilai p lebih dari α, maka variabel tersebut tidak dipilih menjadi variabel penyekat. 5. Misalkan X adalah variabel penyekat yang diperoleh dari langkah (3) atau (4). a. Jika X merupakan variabel numerik, maka teruskan ke langkah (6). b. Jika X merupakan variabel kategorik, X ditransformasikan ke dalam variabel dummy, lalu proyeksikan ke dalam koordinat diskriminan terbesarnya 6. Lakukan analisis diskriminan kuadratik untuk menentukan variabel penyekat..4. Algoritme penentuan variabel penyekat Misalkan variabel respon memiliki dua kategori. Misalkan pula bahwa X merupakan variabel yang terpilih untuk menyekat simpul t. 14
1. Didefinisikan x 0 dan s 0 adalah rata-rata dan variansi X dari pengamatan respon 0, sedangkan x 1 dan s 1 adalah rata-rata dan variansi X dari pengamatan dengan respon 1. Misalkan P(k t) = N k,t /N k merupakan peluang dari masing-masing kategori variabel respon, dengan N k,t adalah jumlah data pada simpul t untuk respon k dan N k adalah jumlah data pada simpul awal untuk respon k.. Tentukan penyelesaian persamaan P(0 t)s 1 0 φ ( x x 0 ) = P(1 t)s 1 s 1 φ ( x x 1 ). 0 s 1 Penyelesaian tersebut dapat ditentukan dengan menentukan akar persamaan kuadrat ax + bx + c = 0, dengan a = s 0 s 1 b = (x 0s 1 x 1s 0 ) c = (x 1s 0 ) (x 0s 1 ) + s 0 s 1 ln { P(0 t)s 1 P(1 t)s 0 } 3. Simpul disekat pada variabel x = d, di mana d didefinisikan sebagai berikut : a. Jika x 0 < x 1, maka d = x 0 b. Jika a = 0, maka x 0 + x 1 (x 0 x 1) d = { 1 s 0 ln { P(0 t) P(1 t) }, x 0 x 1} c. Jika a 0, maka: x 0, x 0 = x 1 i. Jika b 4ac < 0, maka d = 1 (x 0 + x 1) ii. Jika b 4ac 0, maka : a. d adalah akar dari b± b 4ac a yang lebih mendekati nilai x 0, dengan syarat menghasilkan dua simpul tak kosong. b. Untuk d yang lain, d = 1 (x 0 + x 1). 15
.4.3 Algoritme transformasi variabel kategorik menjadi variabel numerik Misalkan X adalah variabel kategorik, dengan kategori b 1, b,, b L. Transformasi X menjadi variabel numerik ξ untuk setiap kelas X dilakukan dengan langkah-langkah sebagai berikut : 1. Transformasikan masing-masing nilai x ke vektor dummy L dimensi v = (v 1, v,, v L ), Dengan v 1 = { 1 x = b 1 0 x b 1, l = 1,,, L. Mencari nilai tengah untuk X v = dengan v L l=1 f lv l L l=1 N k,t N t v (k) = n lv l : rata-rata untuk semua pengamatan pada simpul t v (k) : rata-rata untuk semua pengamatan pada simpul t untuk kelompok ke-k f l : jumlah pengamatan pada simpul t untuk v l n l : jumlah pengamatan pada simpul t kelompok ke-k untuk v l N t : jumlah pengamatan pada simpul t N k,t : jumlah pengamatan pada simpul t untuk kelompok ke-k. 3. Tentukan matriks L L berikut v = L l=1 f lv l N t v (k) = L l=1 n lv l N k,t K B = N k,t (v (k) v )(v (k) v ) k=1 L T = f l (v l v )(v l v ) l=1 4. Lakukan SVD dari T = QDQ, dengan Q adalah matriks orthogonal L L, D = diag(d 1,, d L ) dengan d 1 d d L 0. 5. Tentukan D 1 = diag(d 1,, d L ), 16
dengan d i = { d i 1/ jika d i > 0 0 lainnya. 6. Lakukan SVD dari D 1 Q BQD 1, tentukan vektor eigen a yang merupakan vektor eigen yang sama dengan nilai eigen terbesar. 7. Tentukan koordinat diskriminan terbesar dari v, yaitu ξ = a D 1 Q v 17