ANALISIS DISKRIMINAN I Prinsip Dasar dan Tujuan Analisis Analisis disriminan adalah salah satu teni statisti yang bisa digunaan pada hubungan dependensi (hubungan antarvariabel dimana sudah bisa dibedaan mana variabel respon dan mana variabel penjelas) Lebih spesifi lagi, analisis disriminan digunaan pada asus dimana variabel respon berupa data ualitatif dan variabel penjelas berupa data uantitatif Analisis disriminan bertujuan untu menglasifiasian suatu individu atau observasi e dalam elompo yang saling bebas (mutually exclusive/disjoint) dan menyeluruh (exhaustive ) berdasaran sejumlah variabel penjelas Ada dua asumsi utama yang harus dipenuhi pada analisis disriminan ini, yaitu: Sejumlah p variabel penjelas harus berdistribusi normal Matris varians-covarians variabel penjelas beruuran pxp pada edua elompo harus sama Jia dianalogian dengan regresi linier, maa analisis disriminan merupaan ebaliannya Pada regresi linier, variabel respon yang harus mengiuti distribusi normal dan homosedastis, sedangan variabel penjelas diasumsian fixed, artinya variabel penjelas tida disyaratan mengiuti sebaran tertentu Untu analisis disriminan, variabel penjelasnya seperti sudah disebutan di atas harus mengiuti distribusi normal dan homosedastis, sedangan variabel responnya fixed II Format Data Dasar dan Program Komputer yang Digunaan Data dasar yang digunaan otomatis adalah data yang ontinu (arena adanya asumsi enormalan) untu variabel penjelas (X j ) dan data ategori/ualitatif/nonmetric untu variabel respon (Y) Tabel Format Data untu Analisis Disriminan X X Xp Y Secara apliatif, data dilihat pada bagian Contoh Apliasi Analisis (bagian IV)
Beberapa software yang bisa digunaan adalah SPSS, SAS, dan Minitab Karena eterbatasan ilmu yang dimilii penulis, ali ini hanya aan diberian contoh bagaimana penggunaan SPSS untu melauan analisis disriminan ini III Algoritma Poo Analisis dan Model Matematis Secara ringas, langah-langah dalam analisis disriminan adalah sebagai beriut: Pengecean adanya emunginan hubungan linier antara variabel penjelas Untu point ini, dilauan dengan bantuan matris orelasi (pembentuan matris orelasi sudah difasilitasi pada analisis disriminan) Pada output SPSS, matris orelasi bisa dilihat pada Pooled Within-Groups Matrices Uji Vetor Rata-rata Kedua Kelompo H o : µ = µ H : µ µ Diharapan dari uji ini adalah hipotesis nol ditola, sehingga ita mempunyai informasi awal bahwa variabel yang sedang diteliti memang membedaan edua elompo Pada SPSS, uji ini dilauan secara univariate (jadi yang diuji buan berupa vetor), dengan bantuan tabel Tests of Equality of Group Means 3 Dilanjutan pemerisaan asumsi homosedastisitas, dengan uji Box s M Diharapan dari uji ini hipotesisi nol tida ditola ( Ho: Σ = Σ ) 4 Pembentuan model disriminan a Kriteria Fungsi Linier Fisher Pembentuan Fungsi Linier (teoritis) Fisher mengelompoan suatu observasi berdasaran nilai sor yang dihitung dari suatu fungsi linier Y = λ X dimana λ menyataan vetor yang berisi oefisien-oefisien variabel penjelas yang membentu persamaan linier terhadap variabel respon, [ λ, λ,, λ ] λ= p X = X, X X menyataan matris data pada elompo e-
x x xp x x xp X = ; xn xn xnp i =, j =, xij menyataan observasi e-i variabel e-j pada elompo e- µ, X Σ maa Di bawah asumsi ~ N ( ) µ = µ µ = µ E( X ) µ = E( ) dan ( µ ) ( µ ) Σ Ε X X µ X p,,,, =, = ; Σ = Σ = Σ ; µ adalah vetor rata-rata tiap variabel X pada elompo e- Σ σ = σ σ * σp σp σpp varians var iabel j apabila j = j σ j j = o varians var iabel j dan j apabila j j Fisher mentransformasian observasi-observasi x yang multivariate menjadi observasi y yang univariate Dari persamaan Y = λ X ( ) = E( ) µ µ = E Y λ X = λ ; y diperoleh σ Y = var(l X)=l Σ l µ y adalah rata-rata Y yang diperoleh dari X yang termasu dalam elompo e- σ Y adalah varians Y dan diasumsian sama untu edua elompo n p
Kombinasi linier yang terbai menurut Fisher adalah yang dapat memasimuman rasio antara jara uadrat rata-rata Y yang diperoleh dari x dari elompo dan dengan varians Y, atau dirumusan sebagai beriut: Jia ( µ µ ) = δ ( µ µ ) ( µ µ ) ( µ µ ) Y σ Y Y λ = λ Σ λ λ λδ Σ ( ) maa persamaan di atas menjadi λ λ Karena Σ adalah matris definit positif, maa menurut teori pertidasamaan Cauchy-Schwartz, ( ) rasio λδ dapat dimasimuman jia λσ λ λ = cσ δ = cσ µ µ Dengan memilih c=, menghasilan ombinasi linier yang disebut ombinasi linier Fisher sebagai beriut: Y = λ X = ( ( µ µ ) Σ X Pembentuan Fungsi Linier (dengan bantuan SPSS) Pada output SPSS, oefisien untu tiap variabel yang masu dalam model dapat dilihat pada tabel Canonical Discriminant Function Coefficient Tabel ini aan dihasilan pada output apabila pilihan Function Coefficient bagian Unstandardized diatifan Menghitung discriminant score Setelah dibentu fungsi liniernya, maa dapat dihitung sor disriminan untu tiap observasi dengan memasuan nilai-nilai variabel penjelasnya Menghitung cutting score Cutting score (m) dapat dihitung dengan rumus sebagai beriut: nµ Y + n µ m = n + n n adalah jumlah sampel ada elompo e-, =, Kemudian nilai-nilai discriminant score tiap observasi aan dibandingan dengan cutting score, sehingga dapat dilasifiasian suatu observasi aan termasu e dalam elompo yang mana Suatu observasi dengan arateristi x aan dilasifiasian sebagai anggota elompo ode jia = y ( ) Σ x m, Y ) µ µ
selain itu dimasuan e dalam elompo (ode nol) Penghitungan m dilauan secara manual, arena SPSS tida mengeluaran output m Namun, ita dapat menghitung m dengan bantuan tabel Function at Group Centroids dari output SPSS Penghitungan Hit Ratio (dalam model regresi logisti disebut percentage correct) Setelah semua observasi dipredisi eanggotaannya, dapat dihitung hit ratio, yaitu rasio antara observasi yang tepat penglasifiasiannya dengan total seluruh observasi Seberapa valid model disriminan yang telah dihasilan? Jawaban pertanyaan ini terait dengan validasi model SPSS versi 00 menggunaan validasi dengan metode Leave One Out Misalan ada sebanya n observasi, aan dibentu fungsi linier dengan observasi sebanya n- Observasi yang tida disertaan dalam pembentuan fungsi linier ini aan dipredisi eanggotaannya dengan fungsi yang sudah dibentu tadi Proses ini aan diulang dengan ombinasi observasi yang berbeda-beda, sehingga fungsi linier yang dibentu ada sebanya n Inilah yang disebut dengan metode Leave One Out b Kriteria posterior probability Aturan penglasifiasian yang eivalen dengan model linier Fisher adalah berdasaran nilai peluang suatu observasi dengan arateristi tertentu (x) berasal dari suatu elompo Nilai peluang ini disebut posterior probability dan bisa ditampilan pada sheet SPSS dengan mengatifan option probabilities of group membership pada bagian Save di ota dialog utama dimana P ( x ) p f p ( x ), f ( x ) p adalah prior probability elompo e- dan f (x) = ( π) p exp ( x µ ) ( x µ ) ; = 0, Σ Σ κ
Suatu observasi dengan arateristi x aan dilasifiasian sebagai anggota elompo 0 jia P(=0 x) > P( = x ) Nilai-nilai posterior probability inilah yang mengisi olom dis _ dan olom di _ pada sheet SPSS IV Contoh Apliasi Di sebuah laboratorium dilauan penelitian untu mengetahui apa saja yang membedaan bunga A dan bunga B yang masih satu species Untu itu, diambil sampel bunga A dan B masing-masing sebanya 0 buah Kedua bunga dihitung lebar elopanya (X )dan lebar daunnya (X ) Dietahui juga bahwa edua bunga dapat dijadian indiator derajat easaman suatu zat (ph), maa diteliti juga pada traye ph berapa saja edua bunga sensitif untu mendetesinya(x 3 ) Data yang telah diperoleh aan dianalisis dengan menggunaan analisis disriminan Tabel 3 Data arateristi Bunga A dan Bunga B X X X 3 Y 4,4609 4,7603,43488 0 5,7356 4,0340,4885 0 5,708 3,3686,5469 0 4,4973,45367,7366 0 5,7679,38,365 0 5,96 3,0398,36368 0 5,48373 3,37093,3595 0 5,087 4,96,43008 0 5,439 3,54893,39074 0 4,34865 3,9778,38099 0 8,90377 3,5359,0593 8,3707 4,9499,06065 8,09676 5,379 9,96 9,3638 5,69686,3544 8,6503 5,4649,077 9,858 4,87046 0,066 9,0748 4,90865 9,995 9,84865 5,3779,395 8,8943 5,69997 9,879 8,57 4,9908 8,8796 Sumber: Data bangitan dari Minitab (telah dimodifiasi) Untu melauan analisis disriminan dengan bantuan SPSS, iuti langahlangah beriut: Pada menu Analyze, pilih submenu Classify, lalu pilih Discriminant Kemudian aan muncul ota dialog
Gambar 4 Tampilan Kota Dialog Utama Analisis Disriminan Bagian Grouping Variable diisi dengan variabel respon dan harus didefinisian range- nya pada bagian Define Range Gambar 4 Tampilan Kota Dialog Define Range Bagian Minimum diisi dengan ode terecil dan Maximum diisi dengan ode terbesar dari variabel respon Bagian Independents diisi dengan variabel penjelas Metode yang sering dipaparan pada literatur-literatur adalah metode bertatar (stepwise), maa ali ini hanya aan diberi contoh penggunaan metode ini Posterior probability yang dihasilan dengan metode Enter dan Stepwise aga berbeda, sehingga pada metode Stepwise nilai etepatan lasifiasinya juga aan berbeda Berdasaran literatur-literatur yang pernah dibaca, penulis lebih menyaranan untu menggunaan metode Stepwise Untu menampilan nilai hit ratio, pada bagian Classify li Summary Table Bagian Save memunginan ita untu menampilan nilai-nilai posterior probability observasi untu masu e elompo ode nol(dis_), nilai-nilai posterior probability observasi untu masu e elompo ode satu (dis_), nilai-nilai discriminant score (dis_), dan penglasifiasian observasi oleh model (dis_) pada Sheet SPSS Misalnya untu observasi pertama, nilai
peluangnya untu masu e dalam elompo ode nol (,00000) lebih besar daripada peluangnya untu masu dalam elompo ode satu (0,00000), maa observasi ini aan dimasuan oleh model e dalam elompo ode nol Gambar 3 Tampilan Posterior Probability, Discriminant Score, dan Predicted Group Membership pada sheet SPSS Sampai di sini pengisian ota dialog dirasa cuup untu analisis disriminan Selanjutnya, ita aan mulai interpretasian output-outputnya Pengecean multiolinieritas Pooled Within-Groups Matrices Correlation VAR0000 VAR0000 VAR00003 VAR0000 VAR0000 VAR00003,000 -,3 -,365 -,3,000, -,365,,000 Dari matris orelasi di atas, tida ada anga yang mencapai 0,5 atau di atasnya sehingga ita mengidentifiasi tida ada multiolinieritas pada data Uji Kesamaan vetor rata-rata Tests of Equality of Group Means VAR0000 VAR0000 VAR00003 Wils Lambda F df df Sig,074 5,080 8,000,487 8,983 8,000,80 4,467 8,049 Dilihat dari nilai p-value nya, masing-masing variabel mempunyai rata-rata yang berbeda untu edua elompo Ingat, yang diuji adalah esamaan rata-rata pada tiap elompo (elompo ode nol dan ode satu), buan rata-rata antar variabel
Uji Kesamaan matris varians-covarians(homosedastisitas) Test Results Boxs M 59,85 F Approx df df Sig 7,558 3 5830,000,000 Tests null hypothesis of equal population covariance matrices Tabel di atas memperlihatan bahwa ita dapat menola hipotesis nol arena nilai p- valuenya urang dari 0,05 (dalam hal ini penelitian menggunaan tingat epercayaan 95%) Dari hasil pengujian ini, ita dapat mengataan bahwa data ita berasal dari populasi yang mempunyai matris varians-covarians yang sama Pembentuan fungsi linier Canonical Discriminant Function Coefficients Function VAR0000,935 VAR00003,63 (Constant) -3,988 Unstandardized coefficients Dari tabel di atas, dapat ita bentu fungsi liniernya sebagai beriut: Y= -3,988+,935X +0,63X 3 Penghitungan discriminant score Misalnya untu observasi pertama, dengan memasuan nilai X =4,4609; dan X 3 =4,3488 maa diperoleh discriminant scorenya sebesar -5,7 Penghitungan cutting score Functions at Group Centroids VAR00004,00,00 Function -3,87 3,87 Unstandardized canonical discriminant functions evaluated at group means
0( 3,87) + 0(3,87) Dari tabel di atas, dapat dihitung cutting score nya = = 0 0 Untu observasi pertama, arena discriminant score nya urang dari cutting score, maa dimasuan e dalam elompo ode 0 (penglasifasian tepat arena sebenarnya observasi pertama sebelumnya memang termasu e dalam anggota elompo nol atau bunga A) Hit Ratio Classification Results b,c Predicted Group Membership VAR00004,00,00 Total Original Count,00 0 0 0,00 0 0 0 %,00 00,0,0 00,0,00,0 00,0 00,0 Cross-validated a Count,00 0 0 0,00 0 0 0 %,00 00,0,0 00,0,00,0 00,0 00,0 a Cross validation is done only for those cases in the analysis In cross validation, each case is classified by the functions derived from all cases other than that case b 00,0% of original grouped cases correctly classified c 00,0% of cross-validated grouped cases correctly classified Anga hit ratio di atas sudah mencapai 00% (pada enyataannya sulit mencapai anga sebesar ini, ingat ini hanya data fitif yang dibangitan dengan bantuan omputer) Penglasifiasian observasi baru Jia ada bunga dari species yang sama, dapat dipredisi aan termasu dalam elompo mana berdasaran arateristi yang dimiliinya dengan fungsi linier yang sudah terbentu Inilah yang menjadi tujuan pembentuan fungsi disriminan -Tita Rosy-