HASIL DAN PEMBAHASAN. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika

6 c. Menghitung sebaran pilihan jawaban dan reliabilitas soal. 3. Penerapan teori respon butir dengan menggunakan model IRT 1PL, IRT 2PL, dan IRT 3PL. a. Pengujian asumsi model IRT b. Menghitung parameter karakteristik butir soal (daya pembeda, tingkat kesukaran, dan peluang menebak) untuk setiap model, c. Menghitung parameter kemampuan untuk setiap model, d. Mencari model ICC yang sesuai dari setiap soal dalam setiap model, e. Mencari model yang paling sesuai untuk menggambarkan setiap soal. Software yang digunakan pada penelitian ini adalah Epidata 3.1, ITEMAN dan Bilog MG. Program Epidata 3.1 digunakan untuk menginput data. Program ITEMAN digunakan untuk analisis teori tes klasik. Program Bilog MG digunakan untuk menganalisis model IRT 1PL, IRT 2PL, dan IRT 3PL. HASIL DAN PEMBAHASAN Eksplorasi Data Nilai statistik skor mahasiswa dalam UAS TPB IPB mata kuliah Fisika dapat dilihat pada Tabel 2. Skor maksimum yang diperoleh peserta ujian adalah 34 soal, skor minimum peserta ujian adalah 4 soal, dan rata-rata peserta dapat menjawab soal dengan benar sebanyak 16 soal. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika Statistik Skor Nilai Mahasiswa Rataan Skor 15,951 Standar Deviasi 4,911 Nilai Minimum 4 Nilai Maksimum 34 Median 16 Teori Uji Klasik Beberapa aspek yang diperhatikan dalam teori uji klasik yaitu tingkat kesukaran butir, daya pembeda butir, penyebaran pilihan jawaban, dan reliabilitas skor tes. Tingkat kesukaran butir, daya pembeda butir, dan penyebaran pilihan jawaban setiap soal disajikan pada Lampiran 1. Tingkat kesukaran adalah proporsi peserta ujian menjawab benar butir-butir soal. Berdasarkan klasifikasi tingkat kesukaran soal dalam Nitko (1996), persentase soal tergolong sukar, sedang dan mudah sebesar 28,7%; 60%; dan 11,4%. Soal yang sukar adalah soal nomor 2, 6, 7, 17, 24, 28, 29, 30, 33, dan 35. Soal-soal tersebut memiliki tingkat kesukaran di antara 0-0,3. Artinya kurang dari 30% peserta tes yang dapat menjawab soal-soal tersebut dengan benar. Soal yang tergolong sedang adalah soal nomor 1, 3, 4, 9, 10, 11, 12, 13, 14, 15, 16, 18, 19, 20, 21, 22, 23, 25, 26, 27, dan 32. Soal yang tergolong sedang memiliki tingkat kesukaran di antara 0,31-0,70. Artinya hampir 31% sampai 70% peserta tes yang dapat menjawab soal-soal tersebut dengan benar. Soal yang tergolong mudah adalah 5, 8, 31, dan 34. Soal mudah adalah soal yang hampir semua peserta tes dapat menjawab tersebut dengan benar. Daya pembeda soal dapat dihitung dengan nilai korelasi point biserial atau daya pembeda dengan mengambil data 25% dari atas dan 25% dari bawah. Nilai korelasi point biserial dan daya pembeda memiliki nilai korelasi yang tinggi, sehingga kedua indeks ini dapat dijadikan sebagai pembanding dalam menentukan tingkat pembeda soal. Persentase soal yang tergolong baik, cukup baik, perlu diperbaiki, dan soal yang belum bisa membedakan sebesar 17,1%; 37,1%; 25,7%; dan 20%. Soal yang baik adalah 1, 3, 15, 19, 20, dan 31. Soal-soal tersebut memiliki daya pembeda lebih dari 0,4. Artinya soal-soal tersebut lebih banyak dijawab oleh peserta tes berkemampuan tinggi daripada peserta yang berkemampuan rendah. Soal yang cukup baik adalah 2, 4, 5, 11, 12, 13, 14, 16, 22, 23, 26, 32, dan 33. Soal yang perlu diperbaiki adalah soal nomor 6, 7, 8, 9, 18, 21, 24, 28, dan 34. Soal yang belum dapat membedakan antara kedua kelompok adalah 10, 17, 25, 27, 29, 30, dan 35. Soal-soal ini adalah soal yang nilai daya pembedanya sangat kecil. Sehingga, antara peserta berkemampuan tinggi dan berkemampuan rendah tidak dapat dibedakan. Berdasarkan sebaran pilihan jawaban yang disajikan pada Lampiran 1, setiap pilihan jawaban dipilih oleh peserta ujian sehingga dapat disimpulkan bahwa pilihan jawaban berfungsi sebagai pengecoh. Namun ada beberapa soal yang proporsi setiap pilihan jawaban hampir merata yaitu soal nomor 2, 6, 7, 9, 17, 22, 24, 28, 29, 30, 33, dan 35. Hal ini mengindikasikan adanya peluang menebak. Reliabilitas skor tes dilihat menggunakan koefisien alfa. Nilai koefisien alfa yang diperoleh dari hasil ITEMAN sebesar 0,711 menunjukkan tingkat ketepatan dan kekonsistenan peserta dalam menjawab soal sudah cukup baik.

7 Asumsi-asumsi dalam Model IRT Ada beberapa asumsi yang harus dipenuhi dalam model IRT yaitu unidimensional dan kebebasan lokal. Salah satu cara yang digunakan untuk mengetahui asumsi unidimensional dapat dilihat dari analisis faktor. Analisis faktor yang digunakan dalam penelitian ini menggunakann matriks korelasi tetrachoric. Korelasi tetrachoric digunakan untuk mendapatkan hubungan antar peubah dari peubah-peubah biner atau peubah yang berskala dikotomik yaitu jika benar diberi nilai 1 dan jika salah diberii nilai 0. Metode yang digunakan dalam analisis faktor adalah metode iterated principal axis. Akar ciri Jumlah faktor Gambar 2. Scree plot hasil analisis faktor Hasil analisis faktor dapat dilihat pada Gambar 2. Faktor pertama memiliki akar ciri sebesar 5,097. Akar ciri pada faktor kedua sebesar 1,164. Faktor-faktor lainnya memiliki akar ciri kurang dari satu. Dalam Hattie (1985), Hutten (1980) menaksir asumsi unidimensional berdasarkan pada rasio akar ciri pertama dan akar ciri kedua. Jika nilai perbandingan akar ciri tinggii mengindikasikan unidimensional. Berdasarkan hasil analisis faktor, perbandingan akar ciri pertama dengan akar ciri kedua lebih cukup besar yaitu 4. Hal ini sudah cukup menyatakann bahwa ada satu faktor yang dominan atau asumsi unidimensional terpenuhi. Berdasarkan hasil analisis faktor, soal nomor 20, 31, 23, 32, 15, 19, 11, dan 21 memberikan nilai faktor pembobot yang besar untuk faktor pertama. Soal-soal tersebut merupakan soal-soal yang dapat diselesaikan, jika peserta tes memiliki daya ingat, kemampuan komputasi, dan ketelitian yang cukup baik. Sehingga daya ingat, kemampuan komputasi, dan ketelitian menjadi faktor yang dominan dalam mengerjakan soal. Asumsi kedua yaitu kebebasan lokal ditunjukkan dengan tidak ada satupun soal yang memberikan petunjuk menjawab untuk soal yang lain. Model Teori Respon Butir Satu Parameter Logistik (IRT 1PL) Hasil pendugaan parameter karakteristik butir setiap soal ujian mata kuliah Fisika menggunakan model IRT 1PL (Lampiran 2) menunjukkan bahwa soal-soal mata kuliah Fisika mempunyai nilai b yang cukup beragam. Pada model 1PL nilai a untuk setiap soalnya dianggap sama yaitu 0,,345. Nilai b (tingkat kesukaran) berkisar di antara -4,885 sampai 2,921. Statistik nilai dugaan parameter kemampuan peserta ujian pada Tabel 3 menunjukkan rata-rata kemampuan peserta ujian sebesar 0,0083 dengan rentang nilai dari -3,0491 sampai 3,3110. Tabel 3. Statistik parameter kemampuan pada model IRT 1PL Rataan 0,0083 Ragam 1,0255 Standar Deviasi 1,0127 Minimum -3,0491 Maksimum 3,3110 Berdasarkan uji kesesuaian model yang dapat disajikan pada Lampiran 2 dan kurva karakteristik butir pada Lampiran 3a menunjukkan sebesar 62,86% butir soal belum sesuai (belum dapat digambarkan oleh model) dan 37,14% butir soal yang sesuai (dapat digambarkan oleh model). Kriteria butir soal berdasarkan Tabel 1 dibedakan dan belum dapat digambarkan. soal-soal yang digolongkan tipe soal yang baik adalah soal nomor 9, 11, 16, 18, 21, 22, 24, 26 dan 34. Soal-soal yang tergolong soal yang cukup baik adalah soal nomor 6, 7, 28, dan 35. Sedangkan soal-soal yang belum dapat digambarkan adalah soal nomor 1, 2, 3,4 5, 8, 10, 12, 13, 14, 15, 17, 19, 20, 23, 25, 27, 29, 30, 31, 32 dan 33. Berdasarkan hasil analisis di atas, lebih dari 50% butir soal yang belum sesuai (tidak dapat digambarkan oleh model) sehingga model IRT 1PL belum dapat menggambarkan butir-butir soal ujian Fisika.

8 Model Teori Respon Butir Dua Parameter Logistik (IRT 2PL) Hasil pendugaan parameter karakteristik soal untuk model IRT 2PL dapat dilihat pada Lampiran 2. Nilai a (daya beda) berkisar dari nilai 0,115 sampai dengan 0,804. Nilai b (tingkat kesukaran) berkisar dari nilai -3,188 sampai dengan 4,982. Statistik nilai dugaan parameter kemampuan peserta ujian (Tabel 4) menunjukkan nilai kemampuan tertinggi adalah 3,4897 dan kemampuan terendah adalah -3,1029. Tabel 4. Statistik parameter kemampuan pada model IRT 2PL Rataan 0,0153 Ragam 1,0494 Standar Deviasi 1,0244 Minimum -3,1029 Maksimum 3,4897 Hasil kesesuaian model yang disajikan pada Lampiran 2 dan kurva karakteristik butir pada Lampiran 3b menunjukkan sebesar 25,71% butir soal yang belum sesuai dan 74,29% soal yang sesuai dengan model. Persentase soal yang sesuai lebih banyak daripada soal yang tidak sesuai sehingga disimpulkan model IRT 2PL sudah cukup baik untuk menggambarkan butir-butir soal ujian Fisika. Hal ini menunjukkan parameter daya pembeda berpengaruh dalam model. Berdasarkan Tabel 1, tipe soal dibedakan dan belum dapat digambarkan. Butir soal yang belum dapat digambarkan adalah butir soal nomor 1, 3, 11, 13, 15, 19, 20, 31, dan 33. Soal yang cukup baik adalah 2, 5, 6, 7, 8, 9, 10, 12, 14, 16, 17, 18, 21, 22, 24, 25, 26, 27, 28, 29, 30, 34, dan 35. Tipe butir soal yang baik adalah nomor 4, 23 dan 32. Model Teori Respon Butir Tiga Parameter Logistik (IRT 3PL) Statistik dugaan parameter karakteristik butir dapat dilihat pada Lampiran 2. Nilai a (daya beda) berkisar di antara 0,346 sampai dengan 1,346. Nilai b (tingkat kesukaran) berada di antara -2,980 sampai dengan 3,186. Sedangkan statistik nilai dugaan parameter kemampuan disajikan pada Tabel 5. Rataan kemampuan peserta ujian sebesar -0,0760 dengan kemampuan di antara -3,4655 sampai dengan 3,4339. Tabel 5. Statistik parameter kemampuan pada model IRT 3PL Rataan -0,0760 Ragam 1,2501 Standar Deviasi 1,1181 Minimum -3,4655 Maksimum 3,4339 Berdasarkan Tabel 1, tipe soal dibedakan dan belum dapat digambarkan. Soal yang baik tersebut adalah 2, 4, 7, 12, 19, 23, 32, dan 33. Soal yang cukup baik adalah 5, 6, 8, 9, 10, 11, 13, 16, 17, 18, 21, 22, 24, 25, 26, 27, 28, 29, 30, 34, dan 35. Butir soal yang belum dapat digambarkan adalah 1, 3, 14, 15, 20 dan 31. Berdasarkan hasil uji kesesuaian model yang disajikan pada Lampiran 2 dan kurva karakteristik butir pada Lampiran 3c menunjukkan bahwa sebesar 17,14% butir soal belum dapat digambarkan dengan model dan 82,86% soal yang dapat digambarkan dengan model. Persentase soal yang sesuai lebih banyak daripada soal yang tidak sesuai sehingga disimpulkan model IRT 3PL sudah cukup baik untuk menggambarkan butir-butir soal ujian Fisika. Hal ini menunjukkan parameter daya pembeda dan peluang menebak berpengaruh dalam model. Nilai c (peluang menebak) berkisar antara nilai 0,073 sampai dengan 0,416. Soal yang memiliki peluang menebak yang lebih dari 0,2 adalah 9, 10, 11, 13, 16, 17, 18, 22, 25, 27, dan 29. Peluang menebak tertinggi terdapat pada soal nomor 10 sebesar 0,416 (Gambar 3). Artinya untuk soal nomor 10 peserta ujian dengan kemampuan rendah dapat menebak jawaban benar dengan peluang 0,416. Probability 1.0 0.8 0.6 0.4 0.2 c Item Characteristic Curv e: SOAL10 a = 0.923 b = 3.186 c = 0.416 0-3 -2-1 0 1 2 3 Gambar 3. Kurva karakteristik butir 10 pada model IRT 3PL Ability b

9 Peluang menebak terendah terdapat pada soal nomor 20 sebesar 0,078 (Gambar 4). Artinya untuk soal nomor 20 peserta ujian dengan kemampuan rendah dapat menebak jawaban benar dengan peluang 0,073. Soal nomor 20 adalah soal yang belum dapat digambarkan. Pada Gambar 4 tersebut dapat dilihat ada beberapa amatan yang diamati berada di luar selang kepercayaannya. Probability 1.0 0.8 0.6 0.4 0.2 c Item Characteristic Curv e: SOAL20 a = 0.713 b = -0.406 c = 0.073 b 0-3 -2-1 0 1 2 3 Ability Gambar 4. Kurva karakteristik butir 20 pada model IRT 3PL Perbandingan dan Pemilihan Model Berdasarkan hasil klasifikasi kriteria butir soal pada Tabel 6 menunjukkan terdapat beberapa soal yang belum dapat dimodelkan dengan baik. Nilai khi kuadrat empiris butir yang diperoleh pada model IRT 1PL, IRT 2PL, dan IRT 3PL lebih besar nilai khi kuadrat teoritis (nilai p < 0,05). Soal-soal tersebut berdasarkan model IRT 3PL adalah soal nomor 1, 3, 14, 15, 20 dan 31. Pada saat dimodelkan dengan model IRT 1PL dan IRT 2PL, soal-soal tersebut tidak menunjukkan kriteria yang lebih baik. Walaupun berdasarkan kriteria teori uji klasik memiliki nilai daya pembeda yang cukup baik. Berdasarkan model IRT 3PL, butir soal yang baik adalah soal nomor 2, 4, 7, 12, 19, 23, 32, dan 33. Berdasarkan hasil teori uji klasik, beberapa soal tersebut adalah soal yang sukar. Soal-soal tersebut adalah soal yang belum dapat dimodelkan dengan baik pada model IRT 1PL. Namun, setelah dimodelkan dengan model IRT 3PL terdapat beberapa soal yang menjadi baik. Hal ini dapat menyimpulkan bahwa parameter daya pembeda dan peluang menebak berpengaruh terhadap model. Soal yang cukup baik berdasarkan model IRT 3PL adalah adalah 5, 6, 8, 9, 10, 11, 13, 16, 17, 18, 21, 22, 24, 25, 26, 27, 28, 29, 30, 34 dan 35. Soal-soal tersebut merupakan soal yang setelah dimodelkan dengan IRT 1PL, IRT 2PL, dan IRT 3PL belum menunjukkan kriteria yang lebih baik. Tabel 6. Pengklasifikasian kriteria butir soal pada teori uji klasik dan teori respon butir Kriteria Butir Soal Klasik Modern TK DP IRT IRT 1PL 2PL 1 Se B KB KB KB 2 Su CB KB CB B 3 Se B KB KB KB 4 Se CB KB B B 5 M CB KB CB CB 6 Su P CB CB CB 7 Su P CB CB B 8 M P KB CB CB 9 Se P B CB CB 10 Se BB KB CB CB 11 Se CB B KB CB 12 Se CB KB CB B 13 Se CB KB KB CB 14 Se CB KB CB KB 15 Se B KB KB KB 16 Se CB B CB CB 17 Su BB KB CB CB 18 Se P B CB CB 19 Se B KB KB B 20 Se B KB KB KB 21 Se P B CB CB 22 Se CB B CB CB 23 Se CB KB B B 24 Su P B CB CB 25 Se BB KB CB CB 26 Se CB B CB CB 27 Se BB KB CB CB 28 Su P CB CB CB 29 Su BB KB CB CB 30 Su BB KB CB CB 31 M B KB KB KB 32 Se CB KB B B 33 Su CB KB KB B 34 M P B CB CB 35 Su BB CB CB CB IRT 3PL

10 Keterangan : TK = Tingkat kesukaran DP = Daya Pembeda M = Soal yang bertipe mudah Se = Soal yang bertipe sedang Su = Soal yang bertipe sukar B = Soal yang bertipe baik CB = Soal yang bertipe cukup baik KB = Soal yang bertipe belum dapat digambarkan P = Soal yang bertipe harus diperbaiki BB = Soal yang belum dapat membedakan antara kedua kelompok Berdasarkan hasil uji kesesuaian model yang disajikan pada Lampiran 2, model teori respon butir 2PL merupakan model yang lebih baik dari model teori respon butir 1PL. Hal ini dapat dilihat dari jumlah soal yang sesuai untuk model teori respon butir 2PL lebih banyak dari teori respon butir 1PL. Selain itu, dapat disimpulkan bahwa parameter daya pembeda berpengaruh terhadap model. Perbandingan antara model teori respon butir 2PL dan teori respon butir 3PL juga menunjukkan bahwa model teori respon butir 3PL memiliki jumlah butir soal yang sesuai dan tipe soal yang baik lebih banyak dari model teori respon butir 2PL. Hal ini menunjukkan bahwa parameter menebak berpengaruh terhadap model. Analisis lain yang digunakan untuk memilih model adalah likelihood ratio test (LRT) dan indeks reliabilitas. Perbandingan model pertama dilakukan antara model IRT 1PL dan IRT 2PL. Kemudian dilakukan perbandingan antara model IRT 2PL dan model IRT 3PL. Tabel 7. Indeks pemilihan model Model Nilai -2 log Likelihood Indeks Reliabilitas IRT 1PL 66739,927 0,705 IRT 2PL 66103,864 0,771 IRT 3PL 65984,011 0,781 Hasil likelihood ratio test antara model IRT 1PL dan IRT 2PL sebesar 636,063 dengan db = 35 diperoleh nilai p < 0,005 sehingga disimpulkan model IRT 1PL dan IRT 2PL berbeda. Sedangkan hasil likelihood ratio test antara model IRT 2PL dan IRT 3PL sebesar 119,853 dengan db = 35 diperoleh nilai p < 0,005 sehingga dapat disimpulkan juga model IRT 2PL berbeda dengan model IRT 3PL. Pemilihan model dapat juga dilihat dari indeks reliabilitas pada Tabel 7. Model IRT 3PL memiliki indeks reliabilitas lebih tinggi dari model IRT 1PL dan IRT 2PL. Hasil analisis di atas menunjukkan bahwa model yang sesuai untuk menggambarkan butir soal mata kuliah Fisika adalah IRT 3PL. KESIMPULAN Berdasarkan hasil analisis, terdapat perbedaan parameter daya pembeda dan tingkat kesukaran pada metode teori uji klasik dan teori respon butir. Daya pembeda dan tingkat kesukaran pada teori uji klasik dipengaruhi oleh kemampuan kelompok sedangkan pada teori respon butir dipengaruhi oleh kemampuan individu. Model yang paling sesuai untuk menggambarkan butir-butir soal pada soal ujian mata kuliah Fisika adalah model teori respon butir tiga parameter logistik. Butir soal yang baik adalah soal nomor 2, 4, 7, 12, 19, 23, 32, dan 33. Soal yang cukup baik adalah soal nomor 5, 6, 8, 9, 10, 11, 13, 16, 17, 18, 21, 22, 24, 25, 26, 27, 28, 29, 30, 34 dan 35. Butir soal yang belum dapat digambarkan dalam permodelan IRT 3PL adalah 1, 3, 14, 15, 20, dan 31. DAFTAR PUSTAKA Anastasi, A & S. Urbina. 1997. Psychological Testing. Seventh Edition. Prentice Hall International Inc, New Jersey. Crocker, L. & J. Algina. 1986. Introduction to Classical and Modern Test Theory. Holt, Rinehart and Winston, Inc. New York. Embretson, S. E & S. P. Reise. 2000. Item Response Theory for Psychologists. Lawrence Erlbaum Associates, New Jersey. Hambleton, R. K., Swaminathan, H. & H. J. Rogers. 1991. Fundamentals of Item Response Theory. Sage Publications, The International professional Publishers. California. Hattie, J. 1985. Methodology Review : Assessing Unidimensionality of Tests and Items. Applied Psychological Measurement. 9:139-164.