ABSTRAK.

1 PERBEDAAN FUNGSI INFORMASI ITEM PADA TES PRESTASI BELAJAR MATEMATIKA BENTUK PILIHAN GANDA YANG MENGGUNAKAN PENSKORAN KONVENSIONAL DAN KOREKSI Purwo Susongko Universitas Pancasakti Tegal Kusumatirto@gmail.com ABSTRAK Model penskoran koreksi diterapkan untuk mengurangi tingginya peluang menjawab benar secara menebak pada bentuk tes pilhan ganda. Sejauh mana ketepatan model peskoran tersebut secara psikometris perlu dilakukan kajian lebih lanjut. Secara teori tes klasik, ketepatan pengukuran dilihat dari reliabilitas tes sedangkan secara item response theory (IRT) ketepatan tes diukur dari besarnya fungsi informasi item. Penelitian ini bertujuan untuk menemukan: (1) perbedaan reliabilitas tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi, (2) perbedaan fungsi informasi item pada tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi Data empirik diambil dari respons 755 siswa dari SMA N 4 Kota Tegal dan SMAN I Kramat Kabupaten Tegal. Terdapat 353 siswa yang megerjakan tes dengan penskoran konvensional dan 352 dengan penskoran koreksi. Analisis secara IRT menggunakan model logistik 2 parameter dengan bantuan R program. Tes yang digunakan adalah tes prestasi belajar matematika siswa SMA kelas X pokok bahasan Trigonometri. Hasil penelitian menunjukkan secara teori tes klasik penskoran tes pilihan ganda yang menggunakan koreksi lebih reliabel dibanding penskoran konvensional. Secara IRT, fungsi informasi item pada tes pilihan ganda yang diskor dengan koreksi lebih tinggi dibanding tes yang diskor dengan konvensional. kata kunci: fungsi, informasi,penskoran, konvensional,koreksi A.Pendahuluan Bentuk tes objektif pilihan ganda telah banyak digunakan dalam pengukuran pendidikan. Bentuk tes tersebut digunakan pada tes yang diselenggarakan dalam kelas hingga tes berskala besar seperti Ujian Nasional (UN), Seleksi Penerimaan Mahasiswa Baru (SPMB) dan Seleksi Penerimaan Calon Pegawai Negeri Sipil (CPNS). Banyak keuntungan yang diperoleh dengan penggunaan bentuk tes objektif. Salah satu diantaranya adalah bentuk tes objektif mempunyai sistem penskoran yang lebih cepat dan mudah serta bahan yang diujikan dapat mencakup ruang lingkup yang luas. Pada bentuk tes objektif, pemberian skor dapat dilakukan oleh beberapa orang tanpa latar belakang pengetahuan yang cukup untuk bahan yang diujikan (Fernandes, 1984: 22-23). Pada bentuk tes objektif siapa pun yang memeriksa akan memberikan skor yang sama, sehingga kesalahan karena penskoran dapat menjadi kecil, apalagi bila digunakan komputer dalam penskoran. Menurut Mardapi (1999), tes pilihan ganda cenderung memiliki kesalahan penskoran yang kecil bahkan bisa nol bila digunakan komputer dalam pemeriksaannya, sedangkan bentuk tes uraian cenderung memiliki kesalahan penskoran yang lebih besar. Menurut Ebel & Fresbie (1986: 114), kelemahan bentuk tes objektif ialah bahwa bentuk tes objektif yang baik relatif lebih sulit dalam penyusunannya bila dibandingkan dengan bentuk uraian. Hal ini disebabkan dalam penyusunan bentuk tes objektif, khususnya pilihan ganda, perlu mempertimbangkan aspek asal menebak tetapi benar, dalam arti bahwa siswa yang mempunyai kemampuan rendah memiliki peluang tinggi untuk menjawab benar suatu item tes dengan taraf kesukaran di atas kemampuannya. Persoalan jawaban penempuh tes dengan menebak sebenarnya merupakan sesuatu yang benar-benar dapat mengancam reliabilitas tes. Respons penempuh tes terhadap penggunaan tes objektif berbeda bila dibandingkan dengan menggunakan bentuk tes uraian. Bila menghadapi tes objektif, persiapan penempuh tes cenderung kurang intensif karena adanya peluang untuk menebak jawaban. Pada bentuk tes uraian tidak tersedia alternatif jawaban dan tidak terdapat peluang untuk menebak jawaban

2 sehingga penempuh tes tes. harus mempunyai persiapan yang cukup intensif dalam menghadapi Dalam menyusun bentuk tes objektif, kemampuan pembuat tes dalam menyusun alternatif jawaban merupakan aspek yang sangat penting. Hal ini disebabkan penggunaan distractor yang tidak baik akan mengurangi kualitas item tes. Menurut teori probabilitas, bila digunakan tes pilihan ganda dengan k pilihan, maka peluang menebak jawaban dengan benar satu item soal adalah sebesar 1/k. Hal ini terjadi bila semua distractor berfungsi. Bila konstruksi tes kurang baik sehingga tidak semua distractor berfungsi dengan baik maka tingkat tebakan menjadi lebih tinggi. Tingkat tebakan yang dimaksud dalam hal ini adalah blind guessing, yaitu jawaban yang diberikan oleh penempuh tes dengan menebak tanpa membaca terlebih dulu pertanyaan dalam item tes. Tidak berfungsinya distractor dengan baik secara empirik ditunjukkan oleh hasil penelitian yang dilakukan Attali & Bar-Hillel (2003). Penelitian tersebut menyimpulkan bahwa baik penempuh tes maupun pembuat soal memiliki kecenderungan yang sama dalam memilih jawaban atau menempatkan kunci jawaban pada soal pilihan ganda, yaitu pada jawaban yang berada di tengah (b atau c). Hal ini tentunya meningkatkan kesempatan penempuh tes dalam menebak jawaban. Semakin tinggi tebakan penempuh tes ini tentunya akan memperlemah daya beda item. Hal ini diperparah lagi dengan kenyataan bahwa peluang bekerja sama antara penempuh tes pada bentuk tes objektif sangat tinggi. Semakin rendah daya beda item akan menyebabkan semakin homogen skor yang diperoleh, dan semakin homogen skor yang diperoleh penempuh tes, akan memperlemah reliabilitas tes tersebut (Allen & Yen, 1979: 73). Peningkatan peluang menjawab benar dengan menebak pada bentuk tes pilihan ganda akan mengurangi reliabilitas tes, sehingga estimasi reliabilitas tes menghasilkan koefisien yang lebih tinggi dari nilai yang sebenarnya. Zimmerman & Williams (2003: 358-359) telah merumuskan persamaan yang menunjukkan secara eksplisit pengaruh adanya keberhasilan dalam menjawab dengan menebak terhadap penurunan reliabilitas tes. Peningkatan peluang menjawab dengan menebak akan menurunkan reliabilitas tes. Penurunan reliabilitas tes secara teori klasik mempunyai makna semakin besar kesalahan pengukuran yang terjadi. Model penskoran pada bentuk tes objektif pada umumnya tidak menyediakan alternatif kategori untuk benar sebagian karena dalam tes objektif hanya terdapat dua kategori jawaban (bikategoris) yaitu benar dan salah. Pada penerapan teori tes klasik, kemampuan penempuh tes dilihat berdasarkan jumlah item yang berhasil dijawab. Dalam keadaan tersebut tidak ada perbedaan pemberian skor untuk item-item yang mengukur kemampuan rendah dan item-item yang mengukur kemampuan tinggi (Mardapi, 1999: 9). Untuk mengurangi kesalahan pengukuran pada penggunaan bentuk tes objektif dilakukan dengan penerapan model penskoran Item Response Theory (IRT). Hal ini dilakukan sebab dengan pendekatan IRT, kemampuan penempuh tes dilihat berdasarkan pola jawaban dari penempuh tes. Teori tes klasik menggunakan model matematika yang sangat sederhana untuk menunjukkan hubungan antara skor amatan, skor sebenarnya, dan skor kesalahan. Model ini diikuti dengan sejumlah asumsi untuk menyederhanakan formula dalam mengestimasi indeks kehandalan dan kesahihan suatu instrumen. Walaupun telah berkembang dengan pesat, teori tes klasik sebenarnya mempunyai beberapa kelemahan. Kelemahan tersebut adalah: (1) estimasi kemampuan penempuh tes tergantung pada karakteristik tes yang digunakan; (2) estimasi parameter item tergantung pada kemampuan penempuh tes; dan (3) kesalahan pengukuran hanya dapat dicari untuk kelompok, bukan individu (Mardapi, 2005: 8). Selain itu, asumsi tes paralel yang umumnya digunakan untuk mencari indeks kehandalan tes sangat sulit dipenuhi secara statistik. Beberapa kelemahan pada teori tes klasik dicoba diatasi dengan mengembangkan Item Response Theory (IRT). Dua asumsi utama pada teori ini adalah: (1) independensi lokal, yaitu kejadian menjawab benar suatu item dengan kejadian menjawab benar item yang lain adalah independen;

3 (2) unidimensi, substansi yang diukur adalah satu dimensi. Konsep dasar teori ini menggunakan distribusi normal, ojaif normal, kemudian berkembang menggunakan distribusi logistik dan ojaif logistik. Dengan penerapan IRT, kelemahan dari penerapan teori tes klasik dapat diatasi, yaitu: (1) estimasi kemampuan penempuh tes tidak tergantung pada karakteristik tes yang digunakan; (2) estimasi parameter item tidak tergantung pada kemampuan penempuh tes; dan (3) kesalahan pengukuran dapat dicari untuk tiap individu. Dengan menggunakan Item Response Theory (IRT), peluang menjawab benar dengan menebak tiap item disebut faktor tebakan ( c i ). Faktor tebakan ini pada kurva karakteristik menunjukkan jarak asimtot bawah terhadap skala kemampuan dan menyatakan probabilitas peserta ujian yang berkemampuan rendah menjawab item dengan benar (Hambleton, 1991: 17). Daya beda item didefinisikan sebagai proporsi slope kurva karakteristik pada titik = b i. Semakin tinggi daya beda item, semakin baik suatu item dalam membedakan kemampuan penempuh tes. Dua parameter tersebut, yaitu daya beda item dan faktor tebakan sangat menentukan besarnya fungsi informasi item yaitu nilai fungsi yang menyatakan ukuran ketepatan suatu pengukuran (Hambleton & Swaminathan, 1985: 101). Nilai fungsi informasi item akan maksimal bila daya beda item bernilai setinggi mungkin dan faktor tebakan sekecil mungkin (Hambleton, et al, 1991: 91). Fungsi informasi item ini dapat dimaknai sebagai reliabilitas dalam teori tes klasik. Banyak hal telah dilakukan untuk mengantisipasi kelemahan-kelemahan yang terdapat pada bentuk tes objektif, khususnya untuk tes pilihan ganda. Salah satu di antaranya dengan dikembangkan sistem penskoran yang memberikan hukuman bagi penempuh tes yang menjawab salah (Crocker & Algina, 1986: 400). Hal ini akan mengurangi kesempatan penempuh tes untuk menebak jawaban. Ada dua metode penskoran pada tes pilihan ganda yaitu : ( 1) Model konvensional yaitu skor hanya memperhitungkan yang benar saja sehingga skor didapat dengan menghitung jumlah benar dari soal yang dikerjakan, ( 2) Model koreksi: Skor dihitung dengan rumus sebagai berikut: Skor = B S (1) C 1 Dimana B= banyaknya jawaban benar, S= banyaknya jawaban salah dan C=banyaknya alternatif jawaban. Hingga saat ini kedua bentuk penskoran tersebut telah digunakan secara luas. Penskoran dengan koreksi secara rasional dipandang akan memperkecil peluang menebak sehingga meningkatkan reliabilitas atau fungsi informasi item sehingga kesalahan dalam pengukuran akan semakin kecil. Dengan kecilnya kesalahan pengukuran maka alat ukur tersebut akan lebih efektif. Hingga saat ini belum dilakukan penelitian yang komprehensif berkaitan dengan keefektifan kedua metode penskoran terutaama dengan tinjauan IRT. Banyak kriteria yang digunakan untuk melihat keefektifan suatu bentuk tes baik secara psikometris maupun nonpsikometris. Aspek nonpsikometris suatu bentuk tes diantaranya kepraktisan dan biaya yang dibutuhkan dalam pelaksanaan tes. Keefektifan psikometris berkaitan dengan nilai fungsi informasi tes. Nilai fungsi informasi tes merupakan jumlah nilai fungsi informasi item dari item-item penyusun tes. Perbedaan keefektifan dari dua tes yang mengukur trait yang sama, dilihat dari perbedaan nilai fungsi informasi tes. Rasio fungsi informasi tes dari dua tes menunjukkan efisiensi relatif dari suatu tes terhadap tes yang lain (Lord, 1990: 23). Formula fungsi informasi item untuk model logistik tiga parameter dengan penskoran dikotomus dutunjukkan berikut ini : 2 2.89ai I ci Ii ; dengan i=1,2,3. n (2 ) 1.7a 1.7 2 i bi ai bi c e I e e i Penelitian ini pada dasarnya membandingkan keefektifan secara psikometri model penskoran konvensional dan koreksi ditinjau secara teori tes klasik maupun IRT. Secara teori tes klasik keefektifan tes dioperasionalkan sebagai tingkat reliabilitas tes sedangkan secara IRT dengan mencari nilai fungsi informasi dari tiap item. Oleh karenanya penelitian ini bertujuan

4 menemukan: (1) perbedaan reliabilitas tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi, (2) perbedaan fungsi informasi item pada tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi. B. Hasil Penelitian Dan Diskusi Data empirik diambil dari respons 755 siswa kelas X dari SMA N 4 Kota Tegal dan SMAN I Kramat Kabupaten Tegal. Terdapat 353 siswa yang megerjakan tes dengan penskoran konvensional dan 352 dengan penskoran koreksi. Tes yang digunakan adalah tes prestasi belajar matematika siswa SMA kelas X pokok bahasan Trigonometri sebanyak 20 item pilihan ganda. Analisis secara klasik dilakukan dengan mengestimasi parameter item yang terdiri dari tingkat kesukaran item dan daya beda item serta reliabilitas dari respons siwa pada kedua tes tersebut. Estimasi reliabilitas dilakukan dengan rumus koefisien Alpha, formula Kuder-Richardson 21, formula Spearman Brownman dan formula Rulon. Analisis dengan IRT menggunakan model logistik 2 parameter dengan bantuan R program. Hasil penelitian dengan analisis klasik dapat ditunjukan pada Tabel 1dan Tabel 2.Tingkat kesukaran dan daya beda item pada item yang diskor dengan konvensional dan koreksi dapat dilihat pada Tabel 1 sedangkan estimasi reliabilitas dapat dilihat pada Tabel 2. Tabel 1: Tingkat Kesukaran dan Daya Beda Item Hasil Analisis Secara Teori Tes Klasik No Item Penskoran Konvensional Penskoran Koreksi b(tingkat kesukaran) a (daya beda) b(tingkat kesukaran) a (daya beda) 1 0,93 0,39 0,54 0,52 2 0,66 0,26 0,48 0,56 3 0,72 0,35 0,46 0,68 4 0,79 0,25 0,61 0,42 5 0,80 0,36 0,45 0,50 6 0,75 0,35 0,52 0,56 7 0,80 0,26 0,53 0,62 8 0,71 0,36 0,52 0,75 9 0,60 0,37 0,45 0,57 10 0,82 0,22 0,56 0,64 11 0,75 0,36 0,47 0,60 12 0,77 0,29 0,78 0,66 13 0,83 0,22 0,52 0,59 14 0,82 0,25 0,61 0,65 15 0,77 0,36 0,54 0,35 16 0,75 0,38 0,53 0,68 17 0,84 0,23 0,61 0,42 18 0,79 0,28 0,54 0,54 19 0,82 0,37 0,57 0,49 20 0,73 0,29 0,52 0,60 Tabel 2: Estimasi Reliabilitas pada tes dengan Penskoran Konvensional dan Koreksi No Tipe Reliabilitas Penskoran Konvensional Penskoran Koreksi 1 Alpha 0,700 0,844 2 KR-21 0,698 0,876 3 Spearman-Brown 0,815 0,880 4 Rulon 0,666 0,881 Tabel 3: Tingkat Kesukaran dan Daya Beda Item Hasil Analisis IRT

Probability 0.0 0.2 0.4 0.6 0.8 1.0 5 No Item Penskoran konvensional Penskoran Koreksi b(tingkat kesukaran) a (daya beda) b(tingkat kesukaran) a (daya beda) 1-20.102 0.176-1.018 34.225 2-0.806 1.661-0.682 1.926 3 0.053 21.308-0.596 2.105 4-1.989 1.211-0.791 2.350 5-2.011 1.089-0.880 1.225 6-1.474 1.681-0.067 22.781 7-1.767 1.317-0.655 2.046 8-1.335 1.434-0.755 1.691 9-0.491 1.634-1.024 1.228 10-2.760 0.988-0.500 1.911 11-1.592 1.425-0.809 1.633 12-1.845 1.184-0.751 1.787 13-2.258 1.472-0.978 1.300 14-1.480 1.460-0.491 1.829 15-1.379 1.940-0.850 1.672 16-1.862 1.045-0.680 1.259 17-1.674 1.647-0.791 1.388 18-1.854 1.139-0.849 1.506 19-4.642 0.373-0.818 29.953 20-0.996 0.595-1.018 34.225 Hasil analisis dengan IRT bertujuan mengestimasi parameter item yang bersifat invarian. Parameter tersebut meliputi tingkat kesukaran item (b) dan daya beda item(b) serta fungsi informasi item dari kedua bentuk tes. Parameter-parameter tersebut dapat dilihat pada Tabel 3 dan Gambar 1 dan Gambar 2. Gambar 1: Fungsi Informasi Item Pada Tes dengan Penskoran Konvensional Item Characteristic Curves ITEM1 ITEM13 ITEM14 ITEM15 ITEM16 ITEM17 ITEM18 ITEM10 ITEM11 ITEM12 ITEM19 ITEM20 ITEM5 ITEM6 ITEM4 ITEM7 ITEM8 ITEM9 ITEM2 ITEM3-4 -2 0 2 4 Ability Gambar 2: Fungsi Informasi Item Pada Tes dengan Penskoran Konvensional

Probability 0.0 0.2 0.4 0.6 0.8 1.0 6 Item Characteristic Curves ITEM14 ITEM15 ITEM16 ITEM17 ITEM18 ITEM19 ITEM20 ITEM12 ITEM13 ITEM11 ITEM9 ITEM10 ITEM8 ITEM5 ITEM7 ITEM1 ITEM2 ITEM3 ITEM4 ITEM6-4 -2 0 2 4 Ability Hasil analisis menunjukkan bahwa secara teori tes klasik, item dengan penskoran koreksi mempunyai daya beda yang lebih tinggi dibanding dengan item yang diskor dengan konvensional. Pada tingkat kesukaran item, juga terlihat bahwa item yang diskor dengan koreksi dianggap lebih sulit oleh siswa dibanding dengan item dengan penskoran konvensional. Hal ini membuktikan bahwa bagi peserta tes, dengan adanya hukuman bagi yang menjawab salah, mereka tidak melakukan tebakan terhadap jawaban benar sehingga hanya peserta tes yang benar benar berkemampuan tinggi saja yang dapat menjawab benar. Hal ini juga didukung oleh besarnya estimasi reliabilitas tes dimana estimasi reliabilitas tes pada tes dengan penskoran koreksi lebih tinggi dari estimasi reliabilitas tes pada tes yang menggunakan penskoran konvensional. Tabel 2 menunjukkan dari 4 jenis estimasi reliabilitas, pada tes dengan penskoran koreksi memberikan estimasi reliabilitas yang lebih tinggi dibanding pada tes dengan penskoran konvensiona. Bila reliabilitas menunjukkan ketepatan pengukuran dalam teori tes klasik dapat disimpulkan bahwa penskoran koreksi lebih efektif atau lebih tepat menggambarkan kemampuan siswa dibanding dengan penskoran konvensional. Salah satu kelemahan teori tes klasik adalah parameter item yang tidak bebas dari sampel dan penggunaan skor jawaban benar sebagai skor kemampuan siswa, oleh kerenanya perlu penggunaan IRT sehingga didapatkan kesimpulan yang lebih komprehensif. Secara IRT, dengan item yang sama mempunyai tingkat kesukaran item yang lebih tinggi pada tes yang diskor dengan koreksi dibanding pada tes yang diskor denga konvensional. Demikian pula dengan daya beda item, pada tes yang menggunakan penskoran koreksi mempunyai nilai yang lebih besar dibanding tes yang menggunakan penskoran konvensional. Tingginya daya beda item ini menyebabkan semakin curamnya fungsi informasi item pada tes dengan penskoran koreksi dibanding pada penskoran konvensional seperti dijelaskan pada Gambar 1 dan Gambar 2. Kurva informasi item yang terdapat pada Gambar1 dan Gambar 2 terlihat perbedaan yang jelas antara item-item yang disusun dalam tes dengan penskoran konvensional dan koreksi. Kurva fungsi informasi item pada tes dengan penskoran koreksi jauh lebih curam dibanding dengan kurva informasi item pada tes dengan penskoran konvensional.

7 Ada yang perlu diperhatikan lebih dalam dari hasil analisis secara IRT. Bila pada analisis secara klasik tingginya daya beda dan rendahnya tingkat kesukaran( soal dianggap lebih sulit ) terjadi secara merata pada semua item yang diskor dengan koreksi dibanding item dengan penskoran konvensional, namun pada hasil analisis IRT ada beberapa item yang tidak mengikuti kecenderungan umum. Hal ini terjadi pada item nomor 3, 9, 13, 15 dan 17. Daya beda item secara IRT pada item nomor 3, 9, 13, 15 dan 17, lebih tinggi pada penskoran konvensional dibanding penskoran koreksi, sesuatu yang berbeda dengan kecenderungan umum, namun demikian perbedaan yang cukup signifikan hanya pada nomor 3 dan 9. Item nomor 3 dan 9 sangat berbeda dengan kecendurungan item-item yang lain, disamping perbedaan yang cukup besar untuk nilai daya beda, demikian pula tingkat kesukaran secara IRT lebih tinggi dibanding pada penskoran koreksi, sesuatu yang berbeda dengan 18 item yang lain dimana tingkat kesukaran pada penskoran koreksi lebih tinggi dibanding pada penskoran konvensional. Dari beberapa riset yang telah dilakukan(purwo, 2009) pada analisis IRT, ada kecenderungan umum bila tingkat kesukaran naik maka daya beda akan meningkat., namun demikian untuk kasus lain dijumpai sebaliknya, hingga saat ini belum dikaji lebih dalam hubungan parameter daya beda dan tingkat kesukaran pada analisis IRT. Oleh karena itu penjelasan secara rasional dan empirik untuk kasus pada item nomor 3 dan 9 belum bisa dijelaskan lebih lanjut dalam studi ini. Analisis konten item mungkin akan lebih tepat untuk menjelaskan pada item nomor 3 dan 9 dan hal yersebut diluar dari tujuan studi ini. C. Kesimpulan Dari hasil penelitian dan pembahasan, menunjukkan bahwa secara IRT dapat ditunjukkan bahwa penskoran dengan koreksi mempunyai tingkat ketepatan yang lebih tinggi dibanding tes dengan penskoran konvensional. Dengan demikian dapat disimpulkan bahwa baik secara teori tes klasik maupun IRT tes prestasi belajar matematika dengan penskoran koreksi lebih efektif dibanding dengan penskoran konvensional. DAFTAR PUSTAKA Allen, M. J. & Yen, W. M. (1979). Introduction to measurement theory. Belmont, CA : Woodsworth, Inc. Attali, Y & Tamar, F.(2000). The point-biserial as a discrimination index for distractor in multiple choice item: Deficiencies in usage and an alternative. Journal of Education Measurement,. 37 (1), 77-86. Attali,Y & Bar-Hillel, M.(2003). Guess where: The position of correct answer in multiple choice test item as psychometric variable. Journal of Educational Measurement, 40 (2), 109-128. Crocker, L & Algina, J. (1986). Introduction to classical and modern test theory, Holt, Rinerhart and Wiston, New York Ebel, R L & Frisbie, D. A. (1986). Essentials of educational measurement. Englewood Cliffs, NJ: Prentice Hall, Inc. Fernandes, H. J. X. (1984). Testing and measurement. Jakarta: National Education Planing, Evaluation and Curriculum Develepment Hambleton, R K. (1989). Principles and selected applications of item response theory. Dalam R.L. Linn (Ed.). Educational Measurement hal. 147-200. New York: Macmillan.. Hambleton, R. K & Jones, R. W. (1994). Item parameter estimation errors and their influence on test information functions. Applied Measurement in Education, 7(3), 171-186. Hambleton, R. K & Swaminathan, H. (1985). Item response theory. Boston, MA: Kluwer.

8 Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc. Mardapi, D. (Maret 1997). Ragam bentuk evaluasi. Makalah Semiloka Evaluasi Sistem Penilaian dan Pengukuran Hasil Belajar Mahasiswa UGM, di Universitas Gadjah Mada..(1999). Estimasi kesalahan pengukuran dalam bidang pendidikan dan implikasinya pada ujian nasional. Pidato Pengukuhan Guru Besar. Yogyakarta. 11 September 1999.(2004). Penyusunan tes hasil belajar. Tidak diterbitkan. Program Pascasarjana, Universitas Negeri Yogyakarta..(April 2005). Penerapan matematika dan statistika pada pengukuran pendidikan.. Makalah Seminar Nasional Matematika II, di Universitas Pancasakti. Purwo Susongko,(2009). Perbandingan Keefektifan Bentuk Tes Uraian dan Testlet dengan Penerapan Graded Response Model (GRM). Disertasi. Yogyakarta: Program Pascasarjana Universitas Negeri Yogyakarta, tidak diterbitkan. Zimmerimen, D. W. & Williams, H. R (2003). A New look at the influence of guessing on the reliability of multiple choice tests. Applied Psychological Measurement, 27(5), 319-334.