ANALISIS KUALITAS BUTIR SOAL PILIHAN GANDA MENURUT TEORI TES KLASIK DENGAN MENGGUNAKAN PROGRAM ITEMAN. Oleh: Lian G. Otaya

ANALISIS KUALITAS BUTIR SOAL PILIHAN GANDA MENURUT TEORI TES KLASIK DENGAN MENGGUNAKAN PROGRAM ITEMAN Oleh: Lian G. Otaya Email: lian.otaya@yahoo.com Abstrak Analisis butir soal menjadi langkah yang penting karena untuk menentukan kualitas soal sehingga soal tersebut dapat digunakan atau tidak. Soal pilihan ganda yang baik secara kuantitatif perlu diperhatikan validitas, reliabilitas, tingkat kesukaran, daya pembeda soal, dan efektivitas pengecoh berdasarkan teori klasik. Meskipun penggunaan teori tes klasik relatif mudah dalam menganalisis butir, namun teori ini memiliki beberapa kelemahan mendasar. Kemampuan kelompok peserta didik yang mengikuti tes sangat mempengaruhi nilai statistik. sehingga nilai statistiknya akan berbeda jika tes diberikan kepada kelompok yang lain. Selain itu, perkiraan kemampuan peserta tergantung pada butir soal. Jika indeks kesukaran rendah maka estimasi kemampuan seseorang akan tinggi dan sebaliknya. Perkiraan kesalahan pengukuran tidak mencakup perorangan tetapi kelompok secara bersama-sama. Hal ini dikarenakan respon setiap peserta tes terhadap soal tidak bisa dijelaskan oleh teori tes klasik. Iteman merupakan salah satu program komputer yang dapat digunakan untuk menganalisis butir soal secara klasik yang berguna menentukan kualitas butir soal berdasarkan data empiris hasil ujicoba. Hasil analisis butir soal mencakup informasi mengenai tingkat kesukaran soal, daya pembeda soal, dan statistik penyebaran jawaban. Selain menghasilkan statistik butir soal, program ini juga menghasilkan statistik tes yang meliputi kehandalan/reliabilitas tes, kesalahan pengukuran (standard error), dan distribusi skor. Program ini juga memberikan output skor untuk setiap peserta tes.. A. Pendahuluan Penilaian dalam pembelajaran adalah segala kegiatan yang dirancang dan dilaksanakan secara disengaja dan sistematis dalam mengumpulkan informasi yang akan digunakan sebagai dasar dalam mengambil keputusan tentang pengetahuan, sikap, dan keterampilan peserta didik untuk berbagai macam kepentingan/tujuan pembelajaran. Soal-soal bentuk objektif banyak digunakan dalam menilai hasil belajar. Hal ini disebabkan antara lain oleh luasnya bahan pelajaran yang dapat dicakup dalam tes dan mudahnya menilai jawaban yang diberikan. Jawaban terhadap tes objektif bersifat pasti, hanya ada satu kemungkinan jawaban yang benar. Jika peserta didik tidak menjawab seperti itu dinyatakan salah, tidak ada bobot atau skala terhadap jawaban suatu butir soal, seperti halnya pada tes esai. 1 Salah satu bentuk tes obyektif yang paling sering digunakan adalah tes pilihan ganda. Tes pilihan ganda sangat cocok digunakan jika peserta tes sangat banyak dan hasil tes yang harus segera diumumkan seperti tes ujian akhir nasional, ulangan umum, ulangan kenaikan kelas, tes penerimaan mahsiswa baru, dan sebagainya. Penggunaan yang luas ini tidak terlepas dari 1 Suwandi, Sarwiji, Model-Model Assesmen dalam Pembelajaran, (Surakarta: Yuma Pustaka, 2011), h.57. keunggulan soal pilihan ganda yang dapat diskor dengan mudah, cepat, obyektif, dan dapat mencakup bahan atau materi yang luas dalam suatu tes, dapat mengukur berbagai jenjang kognitif mulai dari ingatan sampai dengan evaluasi. Lebih mudah dianalisis baik dari segi tingkat kesukaran, daya beda, validitas, dan reliabilitasnya. Selain itu, reliabilitas tes pilihan ganda relatif lebih tinggi dibandingkan dengan soal uraian. Beberapa butir pernyataan yang merupakan bagian pokok dalam pedoman umum penulisan butir soal pilihan ganda adalah sebagai berikut: (1) butir soal harus sesuai dengan indikator; (2) pokok soal dan pilihan jawaban harus di rumuskan secara jelas, singkat, padat, dan tegas, sehingga perumusan tersebut hanya mencakup pernyataan yang diperlukan saja; (3) pokok soal jangan memberi petunjuk ke arah jawaban yang benar; (4) pokok soal dan pilihan jawaban tidak mengandung pernyataan yang bersifat negatif ganda; (5) pilihan jawaban yang merupakan kunci jawaban harus menunjukan kebenaran mutlak dan terbaik; (6) pilihan jawaban harus homogen dan logis secara materi dan bahasa; (7) panjang rumusan pilihan jawaban harus relatif sama; (8) pilihan jawaban sebaiknya jangan memakai bunyi semua pilihan jawaban di atas salah atau semua pilihan jawaban di atas benar ; (9) pilihan jawaban berbentuk angka harus 231

disusun berdasarkan urutan kecil ke besar atau sebaliknya. 2 Setiap bentuk soal pilihan ganda, jawabannya harus dipilih dari beberapa kemungkinan jawaban yang telah disediakan. Penggunaan tes pilihan ganda, pada umumnya dijumpai pada ujian yang berskala besar/massal karena sifatnya yang obyektif dan mudah penskorannya. Bentuk soal ini juga dianggap pilihan yang tepat untuk ujian akhir dimana bahan pelajaran yang hendak diujikan biasanya cukup banyak. Dilihat dari strukturnya, bentuk soal pilihan ganda terdiri dari pokok soal (stem) dan pilihan jawaban (option). Pilihan jawaban terdiri atas satu kunci jawaban dan yang lainnya pengecoh (distraktor). Pokok soal (stem) dapat berupa pertanyaan atau pernyataan tidak lengkap. Thorndike secara rinci menjelaskan pengertian pilihan ganda seperti berikut ini: the multiple-choice item consists of two parts:the stem, which presents the problem, and the list of possible answer or options. In the standard form of the item, one of the options is the correct or best answer and the others are foils or distractor. The stem of the item may be presented either as a question or as an incomplete statement (Artinya, item pilihan ganda terdiri dari dua bagian: batang, yang menyajikan masalah, dan daftar kemungkinan jawaban atau opsi. Dalam bentuk standar item, salah satu pilihan adalah jawaban yang benar atau terbaik dan yang lainnya salah (distraktor). Batang item dapat disajikan baik sebagai pertanyaan atau pernyataan tidak lengkap). 3 Dalam kenyataannya, mengkontruksi tes yang berbentuk pilihan ganda tidaklah mudah. Pengkontruksian item soal pilihan ganda kadangkadang menghadapi kesulitan dalam menentukan option pengecoh, sehingga alternatif jawaban cenderung heterogen. Kecenderungan option yang heterogen ini dapat membuat item kurang berarti atau lemah karena item tersebut tidak bisa membedakan antara peserta tes yang berkemampuan tinggi dan yang berkemampuan rendah. Oleh karena itu, perlu dilakukan analisis terhadap kualitas soal tersebut, sebelum diberikan kepada peserta tes. ITEMAN merupakan program komputer yang digunakan untuk menganalisis butir soal secara klasik. Program ini termasuk satu paket program dalam MicroCAT n yang dikembangkan oleh Assessment Systems Corporation mulai tahun 1982 dan mengalami revisi pada tahun 1984, 1986, 1988, dan 1993; mulai dari versi 2.00 sampai 2 Sudjana, Nana. Penilaian Hasil Proses Belajar Mengajar. (Bandung: Remaja Rosdakarya, 2010), h.44. 3 Thorndike, R.M. Measurement and Evaluation in Psychology and Education (7 th ed). (New Jersey: Pearson Education. Inc, 2005), h.448. dengan versi 3.50. Alamatnya adalah Assessment Systems Corporation, 2233 University Avenue, Suite 400, St Paul, Minesota 55114, United States of America. Program ini dapat digunakan untuk: (1) menganalisis data file (format ASCII) jawaban butir soal yang dihasilkan melalui manual entry data atau dari mesin scanner; (2) menskor dan menganalisis data soal pilihan ganda dan skala Likert untuk 30.000 siswa dan 250 butir soal; (3) menganalisis sebuah tes yang terdiri dari 10 skala (subtes) dan memberikan informasi tentang validitas setiap butir (daya pembeda, tingkat kesukaran, proporsi jawaban pada setiap option), reliabilitas (KR-20/Alpha), standar error of measurement, mean, variance, standar deviasi, skew, kurtosis untuk jumlah skor pada jawaban benar, skor minimum dan maksimum, skor median, dan frekuensi distribusi skor, B. Analisis Kualitas Butir Soal Pilihan Ganda Soal pilihan ganda terdiri atas sebuah masalah dan daftar saran pemecahannya. Masalah yang dinyatakan sebagai pertanyaan langsung atau pernyataan tidak lengkap disebut stem soal. Daftar saran pemecahan termasuk kata-kata, nomor, simbol, atau frasa disebut alternative (juga disebut pilihan atau option). Peserta didik disarankan untuk membaca stem dan daftar pilihan dan memilih satu pilihan yang tepat atau yang terbaik. Pilihan yang tepat pada setiap soal disebut jawaban, dan pilihan tersisa disebut pengecoh (juga disebut pemikat atau gagal). Pilihan-pilihan yang tidak tepat fungsinya dalam soal untuk mengecoh peserta didik yang ragu-ragu mengenai jawaban yang tepat. Soal pilihan ganda dikatakan berkualitas bila memenuhi syarat validitas dan reliabilitas. Keberhasilan penilaian bergantung pada tingkat keberhasilan pengembangan instrumen dalam memenuhi syarat agar menghasilkan instrumen soal yang berkualitas tinggi. Analisis kualitas soal pilihan ganda merupakan kegiatan penting dalam upaya memperoleh instrumen penilaian yang berkategori baik. Melalui analisis ini dapat diidentifikasi dan diketahui butir-butir soal manakah yang termasuk dalam kategori baik, kurang baik, dan jelek. Analisis kualitas soal pilihan ganda memungkinkan untuk memperoleh informasi mengenai baik tidaknya suatu butir soal, sekaligus memperoleh petunjuk untuk melakukan perbaikan soal yang ditulis. Menurut Nitko kegiatan menganalisis kualitas instrumen penilaian merupakan suatu kegiatan yang harus dilakukan untuk meningkatkan mutu soal yang telah ditulis. Kegiatan ini merupakan proses pengumpulan, peringkasan, dan penggunaan informasi dari jawaban peserta didik untuk membuat keputusan tentang setiap 232 TADBIR Jurnal Manajemen Pendidikan Islam

penilaian. 4 Sementara menurut Aiken tujuan menganalisis butir soal adalah untuk mengkaji dan menelaah setiap butir soal agar diperoleh soal yang bermutu sebelum soal digunakan. Di samping itu, tujuan analisis ini juga untuk membantu meningkatkan kualitas soal melalui revisi atau membuang soal yang tidak efektif, serta untuk mengetahui informasi diagnostik pada peserta didik apakah mereka sudah ataupun belum memahami materi yang telah diajarkan. 5 Linn & Gronlund menambahkan tentang pelaksanaan kegiatan analisis butir soal yang biasanya didesain untuk menjawab pertanyaanpertanyaan berikut: (1) apakah fungsi soal sudah tepat?; (2) apakah soal ini memiliki tingkat kesukaran yang tepat?; (3) apakah soal bebas dari hal-hal yang tidak relevan?; (4) apakah pilihan jawabannya efektif?. Kegunaan analisis butir soal bukan hanya terbatas untuk peningkatkan butir soal, tetapi ada beberapa hal, yaitu bahwa data analisis butir soal bermanfaat sebagai dasar untuk: (1) diskusi kelas efisien tentang hasil tes; (2) untuk kerja remedial, (3) untuk peningkatan secara umum pembelajaran di kelas; dan (4) untuk peningkatan keterampilan pada konstruksi tes. 6 Berbagai uraian di atas menunjukkan bahwa analisis kualitas butir soal adalah: (1) untuk menentukan soal-soal yang cacat atau tidak berfungsi penggunaannya; (2) untuk meningkatkan butir soal melalui tiga komponen analisis yaitu tingkat kesukaran, daya pembeda, dan pengecoh soal, serta meningkatkan pembelajaran melalui ambiguitas soal dan keterampilan tertentu yang menyebabkan peserta didik sulit. Di samping itu, butir soal yang telah dianalisis dapat memberikan informasi kepada peserta didik dan guru. Untuk mendapatkan informasi tentang karakteristik setiap butir soal perlu dilakukan analisis soal, baik analisis kualitatif maupun analisis kuantitatif. Hasil analisis soal dapat digunakan untuk menguji apakah suatu soal akan berfungsi (analisis kualitatif) atau telah berfungsi (analisis kuantitatif) dengan baik. Jadi, ada dua cara yang dapat digunakan dalam penelahaan butir soal yaitu penelahaan secara kualitatif dan kuantitatif. 7 4 Nitko, Anthony J. Educational Assessment of Students, Second Edition. (Ohio: Merrill an imprint of Prentice Hall Englewood Cliffs, 1996), h.308. 5 Aiken, Lewis R. Psychological Testing and Assessment, (Eight Edition), (Boston: Allyn and Bacon,1994), h.63. 6 Gronlund, N.E. Constructing Achievement Test. (3rd ed). (New York: Prentice Hall, Inc., Englewood Cliffs, 1982), h.315-318. 7 Zulaiha, Rahmah. Bagaimana Menganalisis Soal dengan Program Iteman. (Jakarta: Departemen Pendidikan Nasional Badan Penelaahan soal secara kuantitatif maksudnya adalah penelaahan butir soal didasarkan pada data empirik dari butir soal yang bersangkutan. Ada dua pendekatan dalam analisis secara kuantitatif, yaitu teori secara klasik dan teori modern. Teori tes klasik adalah analisis butir soal yang menggunakan model pengukuran yang sangat sederhana, yakni skor yang tampak terdiri dari skor sebenarnya dan skor kesalahan. Sedangkan teori modern mempunyai orientasi pada item yang karakteristiknya tidak tergantung pada kelompok tertentu. Teori ini membebaskan ketergantungan antara item tes dan peserta tes (konsep invariansi parameter), respon peserta tes pada satu item tes tidak mempengaruhi item tes lainnya (konsep independensi lokal), dan item tes hanya mengukur satu dimensi ukur (konsep unidimensi). Salah satu teori pengukuran yang tertua didunia pengukuran adalah classical true-score theory. Teori ini dalam bahasa Indonesia sering disebut dengan teori tes klasik. Teori tes klasik merupakan sebuah teori yang mudah dalam penerapannya serta model yang sederhana serta sangat berguna dalam mendeskripsikan bagaimana kesalahan dalam pengukuran dapat mempengaruhi skor amatan. Pada teori tes klasik, ciri klasik ditunjukkan bahwa kelompok butir pada uji tes atau kuesioner tidak dapat dipisahkan dari kelompok peserta yang menempuh uji tes atau yang mengisi kuesioner (Naga, 1992: 4). Sebagai akibatnya, jika kelompok butir atau kuesioner yang sama ditempuh atau diisi oleh kelompok yang berbeda, maka ciri atau karakteristik kelompok butir itu pada umumnya berubah. Dengan kata lain, taraf kesukaran dan daya beda kelompok butir itu berubah semata-mata karena mereka ditanggapi oleh peserta yang berbeda. Untuk butir yang sama, kelompok peserta berbeda menunjukkan ciri butir yang berbeda. 8 Demikian pula, jika kelompok peserta yang sama menempuh kelompok butir tes atau mengisi kelompok butir kuesioner berbeda, maka ciri kelompok peserta pun pada umumnya berubah. Dengan kata lain, kemampuan atau sikap peserta berubah semata-mata karena mereka menempuh atau mengisi butir yang berbeda. Untuk peserta yang sama, kelompok butir berbeda menunjukkan ciri peserta yang berbeda. Dengan demikian, pada teori tes klasik, uji tes atau kuesioner sangat bergantung pada butir dan peserta. Sebagai konsekuensinya antara lain adalah kemampuan peserta seolah-olah tinggi jika diberikan tes yang tingkat kesukarannya rendah. Demikian juga sebaliknya, tingkat kesukaran butir tes kelihatannya Penelitian dan Pengembangan Pusat Penilaian Pendidikan, 2008), h.1 8 Naga, Dali. S. Pengantar Teori Sekor pada Pengukuran Pendidikan. (Jakarta: Gunadarma, 1992), h.4. 233

tinggi jika diberikan kepada kelompok peserta yang mempunyai kemampuan rendah. 9 Hal ini sejalan dengan pendapat Hambleton, Swaminathan, & Rogers (1991) yang menyatakan bahwa kelemahan pada teori tes klasik adalah adanya sifat group dependent dan item dependent. Group dependent artinya hasil pengukuran tergantung pada kemampuan kelompok peserta yang mengerjakan tes. Jika tes diujikan kepada kelompok peserta dengan kemampuan tinggi, tingkat kesulitan butir soal akan rendah. Sebaliknya jika tes diujikan kepada kelompok peserta dengan kemampuan rendah, tingkat kesulitan butir soal akan tinggi. Item dependent artinya hasil pengukuran tergantung pada tes mana diujikan. Jika tes yang diujikan mempunyai tingkat kesulitan tinggi, estimasi kemampuan peserta tes akan rendah. Sebaliknya, jika tes yang diujikan mempunyai tingkat kesulitan rendah, estimasi kemampuan peserta tes akan tinggi. Inti teori tes klasik adalah asumsi-asumsi yang dirumuskan secara sistematis serta dalam jangka waktu yang lama. Dari asumsi-asumsi tersebut kemudian dijabarkan dalam beberapa kesimpulan. Ada tujuh macam asumsi yang ada dalam teori tes klasik ini. Allen & Yen (1979) menguraikan asumsi-asumsi teori klasik sebagai berikut: 1. Asumsi pertama teori tes klasik adalah bahwa terdapat hubungan antara skor tampak (observed score) yang dilambangkan dengan huruf X, skor murni (true score) yang dilambangkan dengan T dan skor kasalahan (error) yang dilambangkan dengan E. Yang dimaksud kesalahan pada pengukuran dalam teori klasik adalah penyimpangan tampak dari skor harapan teoritik yang terjadi secara random. Hubungan itu adalah bahwa besarnya skor tampak ditentukan oleh skor murni dan kesalahan pengukuran. Secara matematis dapat dilambangkan dengan X = T + E 2. Asumsi kedua adalah bahwa skor murni (T) merupakan nilai ekspektasi atau harapan (є(x) = T). Dengan demikian skor murni adalah nilai rata-rata skor perolehan teoretis sekiranya dilakukan pengukuran berulang-ulang (sampai tak terhingga) terhadap seseorang dengan menggunakan alat ukur. 3. Asumsi ketiga teori tes klasik menyatakan bahwa tidak terdapat korelasi antara skor murni dan skor pengukuran pada suatu tes yang dilaksanakan (ρ ET = 0). Implikasi dari asumsi adalah bahwa skor murni yang tinggi tidak akan mempunyai error yang selalu positif ataupun selalu negatif. 4. Asumsi keempat menyatakan bahwa korelasi antara kesalahan pada pengukuran pertama dan kesalahan pada pengukuran kedua adalah nol (ρ E1E2 = 0). Artinya bahwa skor-skor 9 Ibid.,h.5. kesalahan pada dua tes untuk mengukur hal yang sama tidak memiliki korelasi (hubungan). Dengan demikian besarnya kesalahan pada suatu tes tidak bergantung kesalahan pada tes lain. 5. Asumsi kelima menyatakan bahwa jika terdapat dua tes untuk mengukur atribut yang sama maka skor kesalahan pada tes pertama tidak berkorelasi dengan skor murni pada tes kedua (ρ E1T2 = 0). Namun, asumsi ini akan gugur jika salah satu tes tersebut ternyata mengukur aspek yang berpengaruh terhadap teradinya kesalahan pada pengukuran yang lain. 6. Asumsi keenam teori tes klasik adalah menyajikan tentang pengertian tes yang paralel. Dua perangkat tes dapat dikatakan sebagai testes yang paralel jika skor-skor populasi yang menempuh kedua tes tersebut mendapat skor murni yang sama (T = T') dan varian skor-skor kesalahannya sama (σ 2 E = σ 2 E ). Dalam prakteknya, asumsi keenam teori ini sulit terpenuhi. 7. Asumsi terakhir dari teori tes klasik menyatakan tentang definisi tes yang setara (essentially τ- equivalent). Jika dua perangkat tes mempunyai skor-skor perolehan X 1 dan X 2 yang memenuhi asumsi 1 sampai 5 dan apabila untuk setiap populasi subyek T 1 = T 2 + C 12, dimana C 12 adalah sebuah bilangan konstanta, maka kedua tes itu disebut tes yang paralel. Asumsi-asumsi teori klasik sebagaimana disebutkan di atas memungkinkan untuk dikembangkan dalam rangka pengembangan berbagai formula yang berguna dalam melakukan pengukuran psikologis. Daya beda, indeks kesukaran, efektifitas distraktor (pengecoh), reliabilitas dan validitas adalah formula penting yang disarikan dari teori tes klasik. 1. Validitas Validitas dapat berkenaan dengan ketepatan alat penilaian terhadap konsep yang dinilai sehingga betul-betul menilai apa yang seharusnya dinilai (Sudjana 2001). a. Validitas logis, terdiri atas: 1). Validitas isi, sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan (Arikunto 2007). Sedangkan validitas isi menurut Ary D. et al (2007) menunjuk pada sejauh mana instrumen tersebut mencerminkan isi yang dikehendaki. 2). Validitas konstruksi, sebuah tes dikatakan memiliki validitas konstruksi jika butir soal yang membangun tes tersebut mengukur setiap aspek berpikir seperti yang dirumuskan dalam indikator (Arikunto 2007). b. Validitas empiris, terdiri atas: 1). Tingkat kesukaran, adalah pengukuran seberapa besar derajat kesukaran suatu soal. Jika suatu soal memiliki tingkat kesukaran seimbang (proporsional), maka dapat dikatakan bahwa soal tersebut baik. 234 TADBIR Jurnal Manajemen Pendidikan Islam

Sebaiknya dalam penyusunan tes tidak terlalu sukar dan tidak pula terlalu mudah. Angka yang menunjukkan mengenai tingkat kesukaran dikenal dengan Difficulty Index yang diberi lambang P (Proportion). Besarnya tingkat kesukaran antara 0,00 sampai dengan 1,0. Menurut Arikunto (2007) klasifikasi indeks kesukaran adalah sebagai berikut: Soal dengan P antara 0,00 sampai 0,10 adalah soal sangat sukar Soal dengan P antara 0,11 sampai 0,30 adalah soal sukar Soal dengan P antara 0,31 sampai 0,70 adalah soal sedang Soal dengan P antara 0,71 sampai 0,90 adalah soal mudah Soal dengan P > 0,90 adalah soal sangat mudah 2). Daya pembeda Daya pembeda adalah pengukuran sejauhmana suatu butir soal mampu membedakan peserta didik yang sudah menguasai kompetensi dengan peserta didik yang belum/kurang menguasai kompetensi berdasarkan kriteria tertentu. Semakin tinggi koefisien daya pembeda suatu butir soal, semakin mampu butir soal tersebut membedakan antara peserta didik yang menguasai kompetensi dengan peserta didik yang kurang menguasai kompetensi. Seluruh peserta tes dikelompokkan menjadi 2 yaitu kelompok atas (upper) dan kelompok bawah (lower). Angka yang menunjukkan besarnya daya pembeda adalah disebut Discriminating Power yang diberi lambang D. Besarnya daya pembeda berkisar antara 0,00 sampai 1,00. Menurut Arikunto (2007) klasifikasi daya pembeda soal adalah sebagai berikut: D = 0,00 0,20 daya pembeda soal adalah jelek D = 0,21 0,40 daya pembeda soal adalah cukup D = 0,41 0,70 daya pembeda soal adalah baik D = 0,71 1,00 daya pembeda soal adalah baik sekali D = Negatif daya pembeda soal adalah sangat jelek 3. Analisis pengecoh Pada soal pilihan ganda terdapat alternatif jawaban/option yang merupakan pengecoh (distraktor). Butir soal yang baik, pengecohnya akan dipilih secara merata oleh peserta didik yang menjawan salah. Sebaliknya butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik apabila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal. Menurut Surapranata (2005) suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% peserta tes. 2. Reliabilitas Reliabilitas adalah ketetapan atau keajegan suatu alat evaluasi (Sudjana 2001). Sedangkan Singarimbun dan Soffian E (2008) menyatakan bahwa reliabilitas merupakan indeks yang menunjukkan sejauhmana suatu alat pengukur dapat dipercaya dan dapat diandalkan. Suatu tes dikatakan memiliki ketetapan jika dapat dipercaya, konsisten/stabil dan produktif kapanpun tes tersebut digunakan. Terdapat tiga cara untuk mengetahui reliabilitas suatu tes yaitu: a. Dengan metode dua tes, dua tes yang paralel dan setaraf diberikan kepada sekelompok siswa, kemudian kedua hasilnya dicari korelasinya. b. Dengan metode satu tes, sebuah tes diberikan dua kali kepada sekelompok siswa yang sama tapi dalam waktu yang berbeda. Kemudian kedua hasilnya dicari korelasinya. c. Metode split-half, suatu tes dibagi menjadi dua bagian yang sama tingkat kesukarannya, sama isi dan bentuknya. Kemudian dilihat skor masing-masing bagian paruhan tes tersebut dan dicari korelasinya. (Purwanto 2004) Nilai dari reliabilitas diberi lambang r yang dapat dicari besarnya dengan menggunakan rumus KR 20 atau Spearman- Brown. Menurut Arikunto (2007) harga r yang diperoleh dikonsultasikan dengan r Tabel product moment dengan taraf signifikan 5%. Jika harga r hitung > r Tabel, maka soal tersebut reliabel. Klasifikasi reliabilitas soal adalah sebagai berikut: 0,800 < r 1,000 : sangat tinggi 0,600 < r 0,800 : tinggi 0,400 < r 0,600 : cukup 0,200 < r 0,400 : rendah 0,000 < r 0,200 : sangat rendah C. Analisis Kualitas Soal Pilihan Ganda dengan Menggunakan Program ITEMAN ITEMAN merupakan perangkat/program untuk menganalisis butir soal dan tes. Program ini didasarkan pada teori tes klasik. Menurut Rudyatmi dan Anni (2010) analisis soal secara klasik adalah proses penelaahan butir soal melalui informasi dari jawaban peserta didik guna meningkatkan mutu butir soal yang bersangkutan dengan menggunakan teori klasik. Melalui data empiris butir soal yang ditampilkan dapat menjelaskan kualitas soal tersebut. Menurut Abidin (2008) 235

terdapat kelemahan utama dari program ini yaitu sangat dipengaruhi oleh kemampuan responden. Artinya jika soal diujikan pada anak berkemampuan tinggi dengan anak berkemampuan rendah maka akan terjadi perbedaan hasil analisis. Untuk mengantisipasi hal tersebut maka biasanya analisis soal dengan menggunakan ITEMAN dilakukan secara sampling. Semakin besar sampling dan semakin baik teknik samplingnya maka semakin baik kualitas hasil analisis. Azwar yang diacu dalam Kustriyono (2004) menyatakan bahwa pada analisis butir menggunakan teori tes klasik tipe objektif, kualitas butir dilihat dari paling tidak dua parameter yaitu tingkat kesukaran dan daya pembeda. Selain itu juga menguji efektifitas distraktor-distraktor pada setiap butir untuk menentukan apakah distraktor tersebut berfungsi atau belum. Program ini termasuk satu paket dalam MicroCat yang dikembangkan oleh Assessment System Corporation mulai tahun 1982 dan mengalami revisi pada tahun 1984, 1986, 1988, dan 1993: mulai dari versi 2.00 sampai dengan versi 3.50. Menurut Rudyatmi dan Anni (2010) adapun fungsi dari program ITEMAN adalah: 1. Untuk menganalisis data file (format ASCII) jawaban butir soal yang dihasilkan manual melalui manual entry data atau dari mesin scanner 2. Menskor dan menganalisis data soal pilihan ganda untuk 30.000 siswa dan 250 butir soal 3. Menganalisis sebuah tes yang terdiri dari 10 skala (subtes) dan memberikan informasi tentang validitas setiap butir (daya pembeda, tingkat kesukaran, proporsi jawaban pada setiap option), reliabilitas (KR-20/Alpha), standar error measurement, mean, variance, standar deviasi, skew, kurtosis untuk jumlah skor pada jawaban benar, skor minimum dan maksimum, skor median dan frekuensi distribusi skor. Menurut Abidin (2008) program ITEMAN juga memberikan hasil skor untuk setiap peserta tes yang menunjukkan jumlah benar dari seluruh jawaban. Sebelum menggunakan program ITEMAN perlu diketahui bahwa terdapat 5 baris utama yang harus dientrykan. Data yang akan dianalisis diketik melalui notepad atau Microsoft Office Word dengan jenis font Courier New. File data yang akan dientrykan ke program ITEMAN terdiri atas 5 baris yaitu: a. Baris pertama adalah baris pengontrol yang mendeskripsikan data b. Baris kedua adalah daftar kunci jawaban setiap butir soal c. Baris ketiga adalah daftar jumlah option untuk setiap butir soal d. Baris keempat adalah daftar butir soal yang akan dianalisis (jika butir yang akan dianalisis diberi tanda Y, jika tidak diikutkan dalam analisis diberi tanda N) e. Baris kelima dan seterusnya adalah data siswa dan jawaban pilihan siswa. Setiap pilihan jawaban siswa (untuk soal pilihan ganda) diketik dengan menggunakan huruf, misal ABCD atau 1234 untuk 4 pilihan jawaban, sedangkan untuk 5 pilihan jawaban yaitu ABCDE atau 12345. Adapun langkah-langkah melakukan analisis soal dengan ITEMAN adalah sebagai berikut. 1. Membuat File Data a. Contoh File data (file data ditulis dengan notepad atau Microsoft Office Word dengan jenis font Courier New) b. Keterangan Pengisian File Data 1) Baris Pertama: Kolom 1-3 : jumlah butir soal (contoh: 040) 4 : Spasi 5 : jawaban kosong (omit), ditulis 0 6 : Spasi 7 : soal yang belum dikerjakan, ditulis n 8 : spasi 9-10 : jumlah identitas data siswa (contoh: 07) Tambahan keterangan: Kolom 1-3, Untuk menuliskan jumlah soal: Kolom 1 ratusan, kolom 2 puluhan, kolom 3 satuan Kolom 5 : butir soal yang tidak dijawab Kolom 7 : butir soal yang belum sempat dikerjakan Kolom 9-10: panjang karakter untuk identitas siswa. 2) Baris kedua : kunci jawaban 3) Baris ketiga :jumlah jawaban 4) Baris Keempat : Y butir soal yang dianalisis, N butir soal yang tidak dianalisis 5) Baris kelima dan seterusnya : berisi jawaban siswa 2. Menjalankan Program Iteman a. Double klik file program ITEMAN b. Tulislah file data: contoh MTS.DAT (MTS.TXT), kemudian tekan enter c. Ketik nama file hasil analisis, contoh HSL.DAT (HSL.TXT), kemudian tekan enter d. Ketik Y, kemudian tekan enter e. Ketik file untuk total skor siswa, contoh SKOR.DAT (SKOR.TXT), kemudian tekan enter. f. Analisis selesai 3. Interpretasi hasil Analisis Hasil analisis dengan ITEMAN dapat dibedakan menjadi 2 bagian, yaitu statistik butir soal dan hasil analisis statistik tes/skala. a. Statistik butir soal adalah untuk tes yang terdiri dari butir-butir soal yang bersifat dikotomi misalnya pilihan ganda. Statistik berikut adalah output dari setiap butir soal yang dianalisis: 1) Seq.N : adalah nomor urut butir soal dalam file data 236 TADBIR Jurnal Manajemen Pendidikan Islam

2) Scala item : nomor urut butir soal dalam tes 3) Prop.Correc : proporsi siswa yang menjawab benar butir tes (indeks tingkat kesukaran soal secara klasikal). Nilai ekstrim (mendekati nol atau satu) menunjukkan bahwa butir soal tersebut terlalu sukar atau terlalu mudah untuk peserta tes. Indeks ini disebut juga indeks tingkat kesukaran soal secara klasikal. 4) Biser : indeks daya pembeda soal dengan menggunakan koefisien korelasi biserial. Nilai positif artinya peserta tes yang menjawab benar butir soal mempunyai skor relatif tinggi dalam tes tersebut. Sebaliknya nilai negatif menunjukkan bahwa peserta tes yang menjawab benar butir tes memperoleh skor tes yang relatif lebih rendah dalam tes. Untuk statistik pilihan jawaban korelasi biserial negatif sangat tidak dikehendaki untuk kunci jawaban (alternatif) dan sangat dikehendaki untuk pilihan jawaban yang lain (pengecoh). 5) Point biserial : juga indeks daya pembeda soal dan pilihan jawaban (alternatif) dengan menggunakan koefisien point biserial. Penafsirannya sama dengan statistik biserial. Statistik pilihan jawaban (alternatif) memberikan informasi yang sama dengan statistik butir soal. Perbedaannya adalah bahwa statistik pilihan jawaban dihitung secara terpisah. Untuk setiap pilihan jawaban dan didasarkan pada pilihan tidaknya alternatif tersebut, bukan pada jawabannya. Tanda bintang yang muncul di sebelah kanan hasil analisis menunjukkan kunci jawaban. b. Statistik tes 1) N of Items : jumlah butir soal dalam tes yang dianalisis. 2) N of Examines: Jumlah peserta tes 3) Mean : Skor atau rerata peserta tes 4) Variance : varian dari distribusi skor peserta tes yang memberikan gambaran tentang sebaran skor peserta tes. 5) Std.Deviasi : Deviasi standar dari distribusi skor tes (akar dari varians) 6) Skew : kemiringan distribusi skor peserta tes yang memberikan gambaran tentang bentuk distribusi skor peserta tes. Kemiringan negatif menunjukkan bahwa sebagian besar skor berada pada bagian atas (skor tinggi) dari distribusi skor. Sebaliknya, kemiringan positif menunjukkan bahwa sebagian besar skor pada bagian bawah (skor rendah) dari distribusi skor. Kemiringan nol menunjukkan bahwa skor berdistribusi secara simetris di sekitar skor rata-rata. 7) Kurtosis : puncak distribusi skor yang menggambarkan kelandaian distribusi skor dibanding dengan distribusi normal. Nilai positif menunjukkan distribusi yang lebih lancip (memuncak) dan nilai negatif menunjukkan distribusi yang lebih landai (merata). Kurtosis untuk distribusi normal adalah nol. 8) Minimum : skor terendah peserta tes 9) Maximum : skor tertinggi peserta tes 10) Median : skor tengah dimana 50% berada pada atau lebih rendah dari skor tersebut. 11) Alpha : koefisien reliabilitas alpha untuk tes atau skala tersebut yang merupakan indeks homogenitas tes atau skala. Koefisien alpha bergerak dari 0,0 sampai 1,0. Koefisien alpha hanya cocok digunakan untuk tes yang bukan mengukur kecepatan dan yang hanya mengukur satu dimensi. Semakin tinggi koefisien alpha menandakan semakin reliabel suatu soal. 12) SEM : kesalahan pengukuran standar untuk setiap tes atau skala. SEM merupakan estimasi dari deviasi standar kesalahan pengukuran dalam skor tes. 13) Mean P : rerata tingkat kesukaran semua butir soal dalam tes secara klasikal dihitung dengan cara mencari rata-rata proporsi peserta tes yang menjawab benar untuk semua butir soal dalam tes. 14) Mean item tot : nilai rata-rata indeks daya pembeda dari semua soal dalam tes yang diperoleh dengan menghitung nilai ratarata point biseral dari semua soal dalam tes 15) Mean biserial : nilai rata-rata indek daya pembeda yang diperoleh dengan menghitung nilai rata-rata korelasi biserial dari semua butir soal. Untuk lebih jelasnya cara menggunakan program ini, pertama data diketik di DOS atau Windows. Cara termudah adalah menggunakan program Windows yaitu dengan mengetik data di tempat Notepad. Caranya adalah klik Start-Programs-Accessories-Notepad. Contoh pengetikan data untuk soal bentuk pilihan ganda 30 o n 6 [Jumlah soal, kode omit, kode tidak dijawab, jmlh karakterl 43142442113424141324213411334 [Kunci jawaban dapat ditulis dengan angka atau hurufl 444444444444444444444444444444 [Jumlah pilihan] YYYYYYYYYYYYYYYYYYYYYYYYYYYYYY [Soal yang dianalisis, bila tidak dianalisis ditulis NJ 237

Dita 123123244113424143324213211334 (Jawaban siswa, dapat ditulis Fauria 423142243413424141124213111233 dengan angka atau huruf) Fara 423142242113424141324213411334 Nafis 143142242433434141324413431334 Raufan 243142242413434141411213211134 Dina 423342224113423141421213044331 Contoh pengetikan data untuk skala Likert. 30 x Y 10 [Jumlah soal, kodc omit, kode tidak dijawab, jmlh karakter] +++++++ ----------- +++++ ---------- +++++-- 777777777777777777777777777777 111111111111111111111111111111 [Positif/negative pernyataan] [Jumlah pilihan] [Kode skala] Nurul 211214123242343423111231243767 [Jawaban siswa, dapat ditulis Imam 312214214242443423224562332565 dengan angka atau huruf) Ali 2242123313324431243254624371YY Kiki 22421112X432443323226556664122 Chanan 32421424234244344322653546X343 Contoh lain pengetikan data untuk soal bentuk pilihan ganda 25 0 N 24 ABDCEBCEDAABEDCCBDBAEDCAB Kuncine 5555555555555555555555555 Pilihane YYYYYYYYYYYYYYYYYYYYYYYYY IWAN SUYAWAN ABDCEBCEDAABEDCEADBAEEECB TIKA HATIKAH ACCEEBCDBAABEECBBDBAEEAAB YENNY SUKHRAINI ABDDDBCEDAABCACCBDDBCDCAB WIJI PURWANTA ACBCEBCEDDCEEDCCAADAEDBBB HENNY LISTIANA ABDCECBDDAABDEACBDBBBECAB UJANG HERMAWAN CDDCEBCEDCDCEDCCBBCADDCAE NIKEN IRIANTI CDDCEBACDAABEBBCBDBAADAAB MIMIK RIATIN ABDDDBCEDAABCACCBDDBCDCAB NUR WAHYU RISDIANTO ABDBCDCEDAABBCDCBDBAAACAB RURI SUSIYANTI AEDEEBCEDBBDEDCCBDCDBDCAB RYSA DWI INDAH YATI ABCDEBCEDAABCACCBDBDEBCAB ANDRIKO ACDCEBCECBCBEDCADABAEBBCB JOKO SLAMET AAAABBBCCCDDEEAABBCCDDEEA LUKMAN NURHUDA ACDBEBCECDBBEDCCBBAAEDCBB OTAH PIANTO DBBCEBAECAABDCBCBDBAEAEAB AKHMAD SYAMSURIZAL ADDCEBCEDCBCDDCCBDBEEDCAB DENY TRI SETIAWAN ABCDABCEDABCBDCCBDEAEDCAB DEWI SETYOWATI ACCBEBCDCBABEDBCEDBDCBCAC ISMAIL SHOLEH ABDBCDCEDAABBCDCBDBAAACAB JEMI INTARYO ACCEEBCDBAABEECBBDBAEEAAB Langkah kedua data yang telah diketik disimpan, misal disimpan pada file: Tes1.txt. Selanjutnya untuk menggunakan program Iteman yaitu dengan mengklik icon Iteman. Kemudian isilah pertanyaan-pertanyaan yang muncul di layar computer seperti berikut. Enter the name of the input file: Tesl.txt <enter> Enter the name of the output file: haltesl.txt <enter> Langkah ketiga adalah membaca hasil, yaitu dengan mengklik icon hsltes1. Hasilnya adalah seperti pada contoh berikut. 238 TADBIR Jurnal Manajemen Pendidikan Islam

MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt Page 1 Item Statistics Alternative Statistics ----------------------- ----------------------------------- Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key ---- ----- ------- ------ ------ ----- --------- ------ ------ --- 1 0-1 0.850-0.018-0.012 A 0.850-0.018-0.012 * B 0.000-9.000-9.000 CHECK THE KEY C 0.100 0.047 0.028? A was specified, C works better D 0.050-0.040-0.019 E 0.000-9.000-9.000 2 0-2 0.450 0.534 0.425 A 0.050-1.000-0.856 B 0.450 0.534 0.425 * C 0.300-0.262-0.199 D 0.150 0.231 0.151 E 0.050 0.121 0.057 3 0-3 0.600 0.515 0.406 A 0.050-1.000-0.856 B 0.100-0.142-0.083 C 0.250 0.039 0.029 D 0.600 0.515 0.406 * E 0.000-9.000-9.000 4 0-4 0.400 0.172 0.135 A 0.050-1.000-0.856 B 0.200-0.059-0.041 CHECK THE KEY C 0.400 0.172 0.135 * C was specified, D works better D 0.200 0.474 0.332? E 0.150 0.018 0.012 5 0-5 0.700 0.215 0.163 A 0.050 0.281 0.133 B 0.050-1.000-0.856 CHECK THE KEY C 0.100 0.142 0.083 E was specified, D works better D 0.100 0.331 0.194? E 0.700 0.215 0.163 * 6 0-6 0.850-0.089-0.058 A 0.000-9.000-9.000 B 0.850-0.089-0.058 * CHECK THE KEY C 0.050-0.040-0.019 B was specified, D works better D 0.100 0.142 0.083? E 0.000-9.000-9.000 239

MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt Page 5 Item Statistics Alternative Statistics ----------------------- ----------------------------------- Seq. Scale Prop. Point Prop. Point No. -Item Correct Biser. Biser. Alt. Endorsing Biser. Biser. Key ---- ----- ------- ------ ------ ----- --------- ------ ------ --- 25 0-25 0.850 1.000 0.685 A 0.050-1.000-0.856 B 0.850 1.000 0.685 * C 0.050-0.523-0.247 D 0.000-9.000-9.000 E 0.050-0.040-0.019 eterangan: Prop. Correct= tingkat kesukaran butir:, Biser dan Point Biser.= korelasi Biserial dan Korelasi Point Biserial, Alt.= alternative/pilihan jawaban, Prop. Endorsing= proporsi Jawaban pada setiap option MicroCAT (tm) Testing System Copyright (c) 1982, 1984, 1986, 1988 by Assessment Systems Corporation K Item and Test Analysis Program -- ITEMAN (tm) Version 3.00 Item analysis for data from file tes1.txt Page 6 There were 20 examinees in the data file. Scale Statistics ---------------- Scale: 0 ------- N of Items 25 N of Examinees 20 Mean 16.250 Variance 9.087 Std. Dev. 3.015 Skew -2.463 Kurtosis 6.976 Minimum 5.000 Maximum 20.000 Median 17.000 Alpha 0.437 SEM 2.261 Mean P 0.650 Mean Item-Tot. 0.266 Mean Biserial 0.352 Hasil scor butir soal pilihan ganda dari ITEMAN versi 3.00 240 TADBIR Jurnal Manajemen Pendidikan Islam

24 1 Scores for examinees from file tes1.txt IWAN SUYAWAN 20.00 TIKA HATIKAH 16.00 YENNY SUKHRAINI 18.00 WIJI PURWANTA 15.00 HENNY LISTIANA 16.00 UJANG HERMAWAN 16.00 NIKEN IRIANTI 17.00 MIMIK RIATIN 18.00 NUR WAHYU RISDIANTO 17.00 RURI SUSIYANTI 17.00 RYSA DWI INDAH YATI 19.00 ANDRIKO 15.00 JOKO SLAMET 5.00 LUKMAN NURHUDA 17.00 OTAH PIANTO 16.00 AKHMAD SYAMSURIZAL 19.00 DENY TRI SETIAWAN 18.00 DEWI SETYOWATI 13.00 ISMAIL SHOLEH 17.00 JEMI INTARYO 16.00 Hasil korelasi point-biserial (r pbi ) dan korelasi biserial (rpbis) berasal dari perhitungan rumus berikut. r pbi Yp Yt = St p (1 p) atau r bis Yp Yt = St p(1 p) U Yp = mean skor pada kriterion siswa yang menjawab benar soal. Yt dan St = mean dan standard deviasi kriterion seluruh siswa. p = proporsi siswa yang menjawab benar soal. U = ordinat kurva normal. Korelasi point-biserial (r pbi) tidak sama dengan 0, korelasi biserial (r bis) paling sedikit 25% lebih besar daripada r pbi untuk perhitungan pada data yang sama. Korelasi point-biserial (r pbi) merupakan korelasi product moment antara skor dikotomus dan pengukuran kriterion; sedangkan korelasi biserial (r bis) merupakan korelasi product moment antara variabel latent distribusi normal berdasarkan dikotomi benarsalah dan pengukuran kriterion. Menurut Millman dan Greene (1989) dalam Educational Measurement, kedua korelasi ini memiliki kelebihan masing-masing. Kelebihan korelasi point biserial adalah: (1) memberikan refleksi kontribusi soal secara sesungguhnya terhadap fungsi tes. Maksudnya ini mengukur bagaimana baiknya soal berkorelasi dengan kriterion (tidak bagaimana baiknya beberapalsecara abstrak); (2) sederhana dan langsung berhubungan dengan statistik tes; (3) tidak pernah mempunyai value 1,00 karena hanya variabel-variabel dengan distribusi bentuk yang sama yang dapat berkorelasi secara sempurna, dan variabel kontinyu (kriterion) dan skor dikotomus tidak mempunyai bentuk yang sama. Kelebihan korelasi biserial adalah: (1) cenderung lebih stabil dari sampel ke sampel, (2) penilaian lebih akurat tentang bagaimana soal dapat diharapkan untuk membedakan pada beberapa perbedaan point di skala abilitas, (3) value r bis yang sederhana lebih langsung berhubungan dengan indikator diskriminasi kurva karakteristik butir (Item Characteristic Curve atau ICC). Kebanyakan para ahli pendidikan, khususnya di Indonesia, banyak yang menggunakan korelasi point biserial daripada korelasi biserial. Kriteria baik tidaknya butir soal menurut Ebel dan Frisbie (1991) dalam Essentials of Educational Measurement halaman 232 adalah bila korelasi point biserial: >0.40=butir soal sangat baik; 0.30-0.39=soal baik, tetapi perlu perbaikan; 0.20-0.29=soal dengan beberapa catatan, biasanya diperlukan perbaikan; < 0. 19=soal jelek, dibuang, atau diperbaiki melalui revisi. Adapun tingkat kesukaran butir soal memiliki skala 0-1. Semakin mendekati 1 soal tergolong mudah dan mendekati 0 soal tergolong sukar. 241

D. Hasil Analisis Hasil analisis secara kuantitatif soal pilihan ganda sebanyak 25 soal dengan menggunakan program ITEMAN versi 3.00 dapat diketahui validitas soal yang meliputi indeks tingkat kesukaran soal, daya pembeda, dan efektifitas pengecoh serta reliabilitas soal sebagai berikut. B U T K U N Tingkat Kesukaran (Prop.Correct) Daya Pembeda (Biser) Distribusi jawaban tiap butir (dalam %) Pengecoh (Prop. I R C I Angka Kategori Angka Kategori A B C D Endorsing) 1 B 1.000 Sgt.Muda h 2 C 1.000 Sgt.Muda h 3 C 1.000 Sgt.Muda h 4 D* 0.925 Sgt.Muda h -9.000 Sgt.Jelek 0.000 1.000 0.000 0.000 Tidak berfungsi -9.000 Sgt.Jelek 0.000 0.000 1.000 0.000 Tidak berfungsi -9.000 Sgt.Jelek 0.000 0.000 1.000 0.000 Tidak berfungsi 0.163 Jelek 0.008 0.008 0.058 0.925 Tidak berfungsi 5 D 0.417 Sedang 0.797 Baik Skli 0.325 0.108 0.150 0.417 Berfungsi 6 A 0.375 Sedang 0.654 Baik 0.375 0.092 0.200 0.333 Berfungsi 7 D 0.308 Sedang 0.863 Baik Skli 0.325 0.125 0.242 0.308 Berfungsi 8 C 0.392 Sedang 0.504 Baik 0.300 0.058 0.392 0.250 Berfungsi 9 C 0.267 Sukar 0.976 Baik Skli 0.425 0.083 0.267 0.225 Berfungsi 10 C 0.567 Sedang 0.288 Cukup 0.200 0.117 0.567 0.117 Berfungsi 11 B 0.500 Sedang 0.263 Cukup 0.283 0.500 0.067 0.150 Berfungsi 12 C 0.575 Sedang 0.399 Cukup 0.192 0.033 0.575 0.200 Berfungsi 13 B 0.400 Sedang 0.511 Baik 0.217 0.400 0.208 0.175 Berfungsi 14 A 0.425 Sedang 0.475 Baik 0.425 0.083 0.350 0.142 Berfungsi 15 C 0.467 Sedang 0.495 Baik 0.250 0.117 0.467 0.167 Berfungsi 16 C 0.383 Sedang 0.284 Cukup 0.250 0.175 0.383 0.192 Berfungsi 17 D 0.592 Sedang 0.158 Jelek 0.208 0.033 0.167 0.592 Berfungsi 18 B 0.408 Sedang 0.487 Baik 0.225 0.408 0.250 0.117 Berfungsi 19 D 0.525 Sedang 0.221 Cukup 0.167 0.050 0.258 0.525 Berfungsi 20 A* 0.608 Sedang -0.019 Sgt.Jelek 0.608 0.008 0.300 0.083 Berfungsi 21 B 0.533 Sedang 0.465 Baik 0.192 0.533 0.208 0.067 Berfungsi 22 C 0.533 Sedang 0.297 Cukup 0.158 0.083 0.533 0.225 Berfungsi 23 C 0.342 Sedang 0.469 Baik 0.175 0.117 0.342 0.367 Berfungsi 24 C 0.600 Sedang 0.470 Baik 0.058 0.133 0.600 0.208 Berfungsi 242 TADBIR Jurnal Manajemen Pendidikan Islam

25 D* 0.692 Sedang 0.094 Jelek 0.092 0.008 0.208 0.692 Berfungsi Σ soal sangat sukar = 0 Σ soal baik sekali = 3 pengecoh berfungsi = 21 Σ soal sukar = 1 Σ soal baik = 9 tidak berfungsi = 4 Σ soal sedang = 20 Σ soal cukup = 6 Σ soal mudah = 0 Σ soal jelek = 3 Σ soal sangat mudah = 4 Σ soal sangat jelek = 4 E. Pembahasan Hasil analisis kuantitatif yang mencakup analisis validitas, reliabilitas, daya beda dan tingkat kesukaran, efektifivitas pengecoh diperoleh dengan bantuan program computer microcat iteman. Dengan melihat hasil iteman, akan mengetahui reliabilitas soal dari koefisien alpha dan analisis butir soal berupa indeks kesulitan, indeks daya beda, dan keefektifan distraktor. 1. Validitas soal Validitas soal dalam analisis ini yang dimaksud validitas soal meliputi tingkat kesukaran, daya beda, dan efektifitas pengecoh. a. Tingkat kesukaran Berdasarkan hasil analisis kuantitatif soal pilihan ganda menggunakan ITEMAN pada Tabel 1 diketahui bahwa soal 0% sangat sukar; 2,5% sukar; 80% sedang; 10% mudah dan 7,5% sangat mudah. Tingkat kesukaran soal tersebut secara keseluruhan termasuk sedang. Dilihat dari tingkat kesukaran (dengan menggunakan ITEMAN ditunjukkan dengan proporsi siswa menjawab benar/proportion correct), maka soal Fisika memiliki tingkat kesukaran sedang. b. Daya beda Pada tabel di atas diketahui bahwa soal dengan daya beda baik sekali memiliki persentase 15%, soal dengan daya beda baik sebesar 32,5%, soal dengan daya beda cukup sebesar 20%, soal dengan daya beda jelek sebesar 22,5%, dan soal dengan daya beda sangat jelek sebesar 10% yang bernilai positif. Artinya soal tersebut dapat membedakan siswa yang berkemampuan tinggi dan yang berkemampuan rendah. Soal yang memiliki nilai daya beda negatif sebesar 10% (4 soal yaitu no 1,2,3, dan 20) tidak dapat membedakan siswa yang berkemampuan tinggi dengan siswa yang berkemampuan rendah. Hal ini ditunjukkan dengan nilai biser berturut-turut sebesar -9,000, -9,000, -9,000 dan -0.019 dan point biser berturt-turut sebesar -9,000, -9,000, -9,000 dan -0.015 (tabel 1). Butir soal yang memiliki nilai negatif menunjukkan peserta tes yang menjawab benar butir soal tersebut memiliki skor yang relatif rendah atau dengan kata lain peserta tes yang memiliki skor relatif tinggi tidak mampu menjawab butir soal tersebut. Dapat dikatakan bahwa butir soal tersebut tidak dapat membedakan siswa yang pandai dan yang tidak pandai. Semakin tinggi nilai daya beda soal (bernilai positif) maka semakin baik soal tersebut. Meskipun memiliki nilai positif, akan tetapi soal yang sebaiknya digunakan adalah soal yang memiliki daya beda cukup, baik dan baik sekali. Hal ini sesuai dengan pendapat Zaman et al (2010) bahwa soal yang memiliki daya beda 0,2 0,4 (cukup) sebaiknya direvisi pada stem soal, setelah lolos revisi maka soal tersebut dapat digunakan dalam tes. c. Efektifitas pengecoh Berdasarkan tabel di atas yang menunjukkan hasil analisis butir soal menggunakan ITEMAN maka dapat diketahui bahwa 90% pilihan jawaban pada soal dapat berfungsi. Artinya pilihan jawaban (bukan kunci jawaban) telah berfungsi sebagaimana mestinya yaitu sebagai pengecoh. Sisanya yaitu sebanyak 10% pengecoh tidak berfungsi. Pada soal dengan tingkat kesukaran sangat mudah maka pengecoh tidak berfungsi yaitu soal no 1,2,3 dan 4. Hal ini karena pokok soal yang terlalu mudah sehingga peserta tes dengan mudah menjawab tanpa menghiraukan pilihan jawaban lain (dalam hal ini pengecoh). Maka dalam menyusun soal perlu diperhatikan tingkat kesukaran soal dan hubungannya dengan pilihan jawaban. Tes pilihan ganda yang disusun tanpa memperhatikan homogenitas tidaknya pilihan jawaban akan berpeluang untuk tidak berfungsi. Karena peserta tes akan dengan mudah menebak tanpa berpikir panjang akan langsung menjawab pada kunci jawaban, artinya tidak menghiraukan pilihan jawaban lain sebagai pengecoh yang tidak homogen. Demikian juga jika pokok soal memberi petunjuk untuk jawaban yang benar. Petunjuk untuk pilihan jawaban yang benar membuat peserta tes menjawab sesuai dengan petunjuk. Hal ini akan menyebabkan alternatif jawaban lain tidak berfungsi. Menurut Aprianto (2008) terdapat beberapa faktor yang mempengaruhi berfungsi tidaknya suatu pengecoh yaitu jika soal terlalu mudah, pokok soal memberi petunjuk pada kunci jawaban dan siswa sudah mengetahui materi yang akan ditanyakan terlalu mudah. 243

Efektifitas pengecoh dikatakan berfungsi jika dipilih oleh sebagian besar siswa yang berkemampuan rendah dan dipilih minimal 5% dari seluruh peserta tes dan dikatakan kurang berfungsi jika dipilih oleh peserta tes yang berkemampuan tinggi. Jika pengecoh lebih banyak dipilih oleh peserta yang berkemampuan tinggi maka dapat dikatakan pengecoh tersebut menyesatkan. Apabila tes dipilih secara merata oleh peserta tes maka pengecoh tersebut berfungsi. Hasil analisis seluruh butir soal fisika terdapat beberapa butir soal yang memiliki daya beda (biser dan point biser) untuk pengecoh yang bernilai positif yaitu soal no 14 pada pengecoh D; no 16 pada pengecoh B; no 22 pada pengecoh B. Dalam hal ini berarti pengecoh tersebut tidak dapat membedakan kemampuan peserta tes, yaitu siswa yang memperoleh skor tinggi menjawab salah soal tersebut. Hal ini sesuai dengan Shakil (2008) yang menyatakan bahwa kualitas pengecoh dalam soal mempengaruhi hasil dari skor keseluruhan peserta tes. Tanda negatif pada pengecoh (pilihan jawaban bukan kunci jawaban) menunjukkan bahwa pengecoh sudah berfungsi dengan baik dimana peserta tes yang skornya rendah memilih pengecoh sebagai jawaban yang benar. Soal no 4 dimana terdapat tanda tanya pada pengecoh A (dimana kunci jawaban adalah D); no 20 dimana terdapat tanda tanya pada pengecoh D (dimana kunci jawaban adalah A); no 25 dimana terdapat tanda tanya pada pengecoh A (dimana kunci jawaban adalah D);, maka pengecoh atau kunci jawaban tersebut perlu ditinjau lagi dari segi kualitatif. Sebagai tindak lanjut atas hasil analisis terhadap berfungsi tidaknya pengecoh maka untuk pengecoh yang telah berfungsi pada soal tersebut dapat digunakan untuk ulangan akhir semester selanjutnya, sedangkan pengecoh yang belum berfungsi perlu diganti atau direvisi dengan pengecoh lainnya. Selain itu jika soal memiliki tingkat kesukaran 1 (misalnya pada soal no 1,2,dan 3 dari hasil analisis ) artinya semua siswa menjawab benar soal tersebut. Nilai biser menunjukkan angka -9,000, hal ini berarti bahwa pengecoh tidak dapat membedakan peserta tes yang memiliki kemampuan tinggi dan yang memiliki kemampuan rendah. Menurut Widodo (2010) penyebab pengecoh yang tidak dipilih oleh peserta tes karena terlalu kelihatan menyesatkan. Pengecoh yang jelek sebaiknya diganti. Selain itu juga perlu diperhatikan lagi, apakah pilihan jawaban tidak homogen atau justru siswa sudah benar-benar memahami konsep materi yang diajarkan. 2. Reliabilitas soal Penghitungan menggunakan ITEMAN dapat diketahui nilai reliabilitas soal melalui scale statistic. Indeks reliabilitas berkisar antara 0-1 dengan lima kriteria. Semakin tinggi koefisien reliabilitas suatu tes, semakin tinggi pula keajegan atau ketepatannya. Nilai alpha/reliabilitas soal yang dihitung secara keseluruhan adalah sebesar 0,761(lihat lampiran 1) artinya soal tersebut memiliki keajegan yang tinggi. Kehandalan yang dimaksud dalam hal ini meliputi ketepatan/kecermatan hasil pengukuran dan keajegan/kestabilan dari hasil pengukuran. Gronlund yang diacu dalam Surapranata (2005) menyebutkan bahwa untuk pengambilan keputusan individu, koefisien reliabilitasnya harus tinggi. 3. Keputusan Setelah melihat hasil analisis tingkat kesukaran, daya pembeda, dan efektifitas pengecoh serta reliabilitas soal, maka dapat diambil keputusan sebagai berikut. Butir Tingkat Kesukaran Daya Pembeda Pengecoh Keputusan 1 Sgt.Mudah Sgt.Jelek 2 Sgt.Mudah Sgt.Jelek 3 Sgt.Mudah Sgt.Jelek Tidak berfungsi Tidak berfungsi Tidak Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa butir soal ini tingkat kesulitannya adalah 1,000 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah. Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa butir soal ini tingkat kesulitannya adalah 1,000 yang artinya soal tersebut terlalu mudah. Dapat dilihat pula dari distribusi bahwa butir soal 1 kurang mampu membedakan siswa dengan kemampuan tinggi dengan sisiwa dengan kemampuan rendah. Soal sangat jelek, dibuang, atau diperbaiki melalui revisi. Dapat dilihat dari tabel bahwa 244 TADBIR Jurnal Manajemen Pendidikan Islam