ABSTRAK.

dokumen-dokumen yang mirip
PERBEDAAN KETEPATAN ESTIMASI TINGKAT KESUKARAN BUTIR TES PILIHAN GANDA PADA PENSKORAN KOREKSI DAN KONVENSIONAL DENGAN PENERAPAN MODEL RASCH

Lita Destri Ningsih Isnani, M.Si

ANALISIS ITEM DENGAN PENDEKATAN IRT

HASIL DAN PEMBAHASAN. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika

Keakuratan Hasil Analisis Butir Menurut Teori Tes Klasik dan Teori Respons Butir Ditinjau dari Ukuran Sampel

PSIKOMETRI. Oleh: Prof. Dr. I Wayan Koyan, M.Pd. Pascasarjana Undiksha Singaraja

PENSKORAN POLITOMI DALAM TEORI RESPON BUTIR MENGGUNAKAN GRADED RESPONSE MODEL (GRM) Kata Kunci: Item Respon Teori (IRT), Graded Response Model (GRM)

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES. Saifuddin Azwar Universitas Gadjah Mada

ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK: SEBUAH PENGANTAR. Oleh: Djunaidi Lababa*

Kata Kunci: Analisis Butir Tes, Teori respons butir, soal matematika

: <Dr: SamsuCjfadi, M.Kpm

PERBANDINGAN KEEFEKTIFAN BENTUK TES URAIAN DAN TESTLET DENGAN PENERAPAN GRADED RESPONSE MODEL (GRM) Oleh Purwo Susongko Abstrak Penelitian ini

PENGANTAR TEORI TES KLASIK (TTK)*)

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES

Panduan Penggunaan AnBuso 2015

Aplikasi IRT dalam Analisis Aitem Tes Kognitif

Jurnal Media Pendidikan Matematika J-MPM Vol. 2 No. 1, ISSN

P - 16 ANALISIS KEMAMPUAN BERPIKIR KRITIS MATEMATIK SISWA DENGAN MENGGUNAKAN GRADED RESPONSE MODELS (GRM)

STRATEGI PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK MENINGKATKAN KEAMANAN TES

DEPARTEMEN PENDIDIKAN NASIONAL UNIVERSITAS NEGERI YOGYAKARTA PROGRAM PASCASARJANA

ANALISIS HASIL TEST. Classical Theory Test. Tingkat Kesukaran(

Karakteristik Instrumen Penilaian Hasil Belajar Matematika Ranah Kognitif yang Dikembangkan Mengacu pada Model Pisa

KEBERFUNGSIAN ITEM DIFFERENSIAL PADA PERANGKAT TES UJIAN NASIONAL MATEMATIKA SEKOLAH MENENGAH ATAS DI JAWA TENGAH. Samsul Hadi

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

ANALISIS BUTIR SOAL PILIHAN GANDA UJIAN AKHIR SEMESTER MAHASISWA DI UNIVERSITAS TERBUKA DENGAN PENDEKATAN TEORI TES KLASIK

PERBANDINGAN KEEFEKTIFAN BENTUK TES URAIAN DAN TESTLET DENGAN PENERAPAN GRADED RESPONSE MODEL (GRM)

ANALISIS BUTIR SOAL DENGAN ANBUSO Oleh: Ali Muhson

INAPPROPRIATNESS SCORE BASED ON ITEM RESPONSE THEORY

ANALISIS BUTIR TES OBJEKTIF UJIAN AKHIR SEMESTER MAHASISWA UNIVERSITAS TERBUKA BERDASARKAN TEORI TES MODERN

Partial Credit Model (PCM) dalam Penskoran Politomi pada Teori Respon Butir

EFEK PEMUSATAN DATA TERHADAP PARAMETER ITEM BERBASIS CLASICAL TEST THEORY (CTT)

r P1, r P2,..., r p30 r R1, r R2,..., r R30

Rencana Pelaksanaan Perkuliahan

Jurnal Penelitian dan Evaluasi Pendidikan

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

Abstrak Pengembangan Bank Soal Matematika. Oleh : Heri Retnawati Jurdik Matematika FMIPA UNY Yogyakarta. Abstrak

KONSISTENSI PARAMETER TES. Rustam (Universitas Terbuka) Abstrak

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

PENGARUH JUMLAH ALTERNATIF JAWABAN TES OBYEKTIF BENTUK PILIHAN GANDA TERHADAP RELIABILITAS, TINGKAT KESUKARAN DAN DAYA PEMBEDA

SATUAN ACARA PERKULIAHAN

TEKNIK PENSKORAN TES OBYEKTIF MODEL PILIHAN GANDA Khaerudin 1

RENCANA PELAKSANAAN PEMBELAJARAN

AKTERISTIK BUTIR TES MATEMATIKA PADA TES BUATAN MGMP MATEMATIKA KOTA PALOPO BERDASARKAN TEORI KLASIK

PERSYARATAN ANALISIS INSTRUMEN SEBAGAI PRASYARAT KETEPATAN HASIL ANALISIS DALAM PENELITIAN PENDIDIKAN

Laporan Penelitian. Analisis Kualitas Butir Soal Mata Kuliah Membaca 2 (PBIN4329)

PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK PENINGKATAN KEAMANAN TES. Agus Santoso FMIPA Universitas Terbuka

BAB II TINJAUAN PUSTAKA

Skripsi disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan Biologi. oleh Mahanani

MENYUSUN INSTRUMEN YANG VALID Dalam menyusun dan menganalisis instrument non tes pada makalah ini, kami menggunakan Skala Likert supaya dalam

Karakteristik Butir Tes dan Analisisnya. Oleh: Heri Retnawati

STUDI GENERALIZABILITAS TES TIPE DUA FACET DENGAN MENGGUNAKAN ANALISIS VARIAN TIGA JALUR. Oleh. Purwo Susongko

Implementasi Teori Responsi Butir (Item Response Theory) pada Penilaian Hasil Belajar Akhir di Sekolah

BAB I PENDAHULUAN. A. Latar Belakang Masalah

BAB II KAJIAN TEORETIK

Jurnal Materi dan Pembelajaran Fisika (JMPF)

PENYUSUNAN INSTRUMEN PENELITIAN Oleh : Sri Yamtinah A. PENDAHULUAN Meneliti adalah melakukan pengukuran terhadap fenomena sosial maupun alam.

TESTLET SEBAGAI ALTERNATIF PENGEMBANGAN BENTUK TES PRESTASI BELAJAR PADA PEMBELAJARAN KIMIA DI SEKOLAH. Purwo Susongko

Analisis Dan Simulasi Dengan Program Win-Gen (Strategi Dalam Mengkonstruk Instrumen Soal)

KEBERFUNGSIAN BUTIR DIFERENSIAL PERANGKAT TES UJIAN AKHIR SEKOLAH BERSTANDAR NASIONAL (UASBN) MATA PELAJARAN MATEMATIKA DI KOTA KENDARI

PENINGKATAN KOMPETENSI TENAGA PENDIDIK DALAM PENGEMBANGAN TES MENGGUNAKAN METODE EQUATING

Suhariyono, Sriyono, Nur Ngazizah

BAB III METODE PENELITIAN. Metode penelitian adalah cara yang digunakan oleh peneliti dalam

Indah Arsita Sari, Edy Wiyono, Ahmad Fauzi Pendidikan Fisika, Fakultas Keguruan dan Ilmu Pendidikan Universitas Sebelas Maret Surakarta, Indonesia

TEORI RESPON ITEM DENGAN PENDEKATAN MODEL LOGISTIK SATU PARAMETER

ANALISIS DATA UJIAN NASIONAL MATEMATIKA BERDASARKAN PENSKORAN MODEL RASCH DAN MODEL PARTIAL CREDIT

ANALISIS ITEM SOAL UTS PEDOLOGI SEMESTER GANJIL ) Abstrak. Abstract

BAB I PENDAHULUAN. Evaluasi merupakan salah satu bagian dari proses pembelajaran. Evaluasi itu

HUBUNGAN MODEL PENSKORAN TERHADAP ESTIMASI SKOR SESUNGGUHNYA BERDASARKAN TEORI RESPONS BUTIR. Musmuliadi. LPMP NTB

SATUAN ACARA PERKULIAHAN

Analisis Butir Soal Tes Prestasi Hasil Belajar

PEP Educational Assessment Volume 1 Nomor 1 Tahun 2017 p-issn: X e-issn: Homepage:

ANALISIS BUTIR SOAL DENGAN PENDEKATAN CLASSICAL TEST THEORY DAN ITEM RESPONSE THEORY. Wiwin Mistiani Teacher Training and Tarbiyah Faculty, IAIN Palu

BAB III METODE PENELITIAN. deskriptif. Metode penelitian deskriptif digunakan untuk memecahkan atau

TEORI RESPONSI BUTIR. Penulis: : Dr. Ir. Sudaryono, M.Pd. Edisi Pertama Cetakan Pertama, 2013

ANALISIS BUTIR SOAL ISMUBA (AL-ISLAM, KEMUHAMMADIYAHAN DAN BAHASA ARAB) KELAS IV SD MUHAMMADIYAH 5

BAB III METODOLOGI PENELITIAN

DAFTAR ISI KATA PENGANTAR. BAB I PENDAHULUAN 1 A. Pengukuran dalam Pendidikan 1 B. Teori Sekor Klasik dan Teori Sekor Modern 4

BEBERAPA KRITERIA EMPIRIK PADA ANALISIS BUTIR. Oleh Dali S. Naga

PENYETARAAN (EQUATING) SKOR BIOLOGI SMA BERDASARKAN HASIL UJIAN NASIONAL TAHUN 2010/2011

BAB I PENDAHULUAN A. Latar Belakang Masalah

BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

ANALISIS DATA PENGUKURAN MENGGUNAKAN PROGRAM QUEST. Didik Setyawarno Pendidikan IPA FMIPA UNY Yogyakarta, 18 November 2016

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES BERDASARKAN TEORI RESPON BUTIR

Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

KUALITAS TES PILIHAN GANDA (MULTIPLE-CHOICE) SEBAGAI UPAYA MEMBENTUK PROSES BERFIKIR MAHASISWA

PENYUSUNAN ALAT PENILAIAN HASIL BELAJAR DAN ANALISIS BUTIR SOALNYA *) Oleh: Ali Muhson, M.Pd. **)

PENINGKATAN KOMPETENSI CALON PENDIDIK KIMIA MELALUI ITEM RESPONSE THEORY: STRATEGI MENGHADAPI MASYARAKAT EKONOMI ASEAN

PENGEMBANGAN DAN ANALISIS SOAL ULANGAN KENAIKAN KELAS KIMIA SMA KELAS X BERDASARKAN CLASSICAL TEST THEORY DAN ITEM RESPONSE THEORY

KOMPARASI KETEPATAN ESTIMASI KOEFISIEN RELIABILITAS TES UJIAN NASIONAL KIMIA PROVINSI JAMBI TAHUN AJARAN 2014/2015

PROGRAM QUEST SALAH SATU CARA MENINGKATKAN VALIDITAS INTERNAL PENELITIAN BAHASA INDONESIA

KOMPARASI BEBERAPA METODE ESTIMASI KESALAHAN PENGUKURAN. Catharina Sri Wahyu Widayati. LPMP DIY

DIFFERENTIAL ITEM FUNCTIONING (KEBERBEDAAN FUNGSI BUTIR)

METODE KALIBRASI DAN DESAIN TES BERDASARKAN TEORI RESPONS BUTIR (IRT) 2

Seminar Nasional Pendididikan MIPA Fakultas Pendidikan Matematika dan Ilmu Pengetahuan Alam Universitas Negeri Yogyakarta

Psikometri. Analisis Item 1

KOMPARASI KARAKTERISTIK BUTIR TES PILIHAN GANDA DITINJAU DARI TEORI TES KLASIK

Kriteria Instrumen dalam suatu Penelitian

Psikometri. Reliabilitas 1

SILABUS. Pertemuan ke-2 Pertemuan ini membahas dan mendiskusikan tentang peranan formatif asesmen dan sumatif asesmen pada proses pembelajaran sejarah

ESTIMASI KESALAHAN PENGUKURAN PERANGKAT SOAL UJI COBA UJIAN NASIONAL MATA PELAJARAN EKONOMI SMA DI KABUPATEN BANJARNEGARA

Transkripsi:

1 PERBEDAAN FUNGSI INFORMASI ITEM PADA TES PRESTASI BELAJAR MATEMATIKA BENTUK PILIHAN GANDA YANG MENGGUNAKAN PENSKORAN KONVENSIONAL DAN KOREKSI Purwo Susongko Universitas Pancasakti Tegal Kusumatirto@gmail.com ABSTRAK Model penskoran koreksi diterapkan untuk mengurangi tingginya peluang menjawab benar secara menebak pada bentuk tes pilhan ganda. Sejauh mana ketepatan model peskoran tersebut secara psikometris perlu dilakukan kajian lebih lanjut. Secara teori tes klasik, ketepatan pengukuran dilihat dari reliabilitas tes sedangkan secara item response theory (IRT) ketepatan tes diukur dari besarnya fungsi informasi item. Penelitian ini bertujuan untuk menemukan: (1) perbedaan reliabilitas tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi, (2) perbedaan fungsi informasi item pada tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi Data empirik diambil dari respons 755 siswa dari SMA N 4 Kota Tegal dan SMAN I Kramat Kabupaten Tegal. Terdapat 353 siswa yang megerjakan tes dengan penskoran konvensional dan 352 dengan penskoran koreksi. Analisis secara IRT menggunakan model logistik 2 parameter dengan bantuan R program. Tes yang digunakan adalah tes prestasi belajar matematika siswa SMA kelas X pokok bahasan Trigonometri. Hasil penelitian menunjukkan secara teori tes klasik penskoran tes pilihan ganda yang menggunakan koreksi lebih reliabel dibanding penskoran konvensional. Secara IRT, fungsi informasi item pada tes pilihan ganda yang diskor dengan koreksi lebih tinggi dibanding tes yang diskor dengan konvensional. kata kunci: fungsi, informasi,penskoran, konvensional,koreksi A.Pendahuluan Bentuk tes objektif pilihan ganda telah banyak digunakan dalam pengukuran pendidikan. Bentuk tes tersebut digunakan pada tes yang diselenggarakan dalam kelas hingga tes berskala besar seperti Ujian Nasional (UN), Seleksi Penerimaan Mahasiswa Baru (SPMB) dan Seleksi Penerimaan Calon Pegawai Negeri Sipil (CPNS). Banyak keuntungan yang diperoleh dengan penggunaan bentuk tes objektif. Salah satu diantaranya adalah bentuk tes objektif mempunyai sistem penskoran yang lebih cepat dan mudah serta bahan yang diujikan dapat mencakup ruang lingkup yang luas. Pada bentuk tes objektif, pemberian skor dapat dilakukan oleh beberapa orang tanpa latar belakang pengetahuan yang cukup untuk bahan yang diujikan (Fernandes, 1984: 22-23). Pada bentuk tes objektif siapa pun yang memeriksa akan memberikan skor yang sama, sehingga kesalahan karena penskoran dapat menjadi kecil, apalagi bila digunakan komputer dalam penskoran. Menurut Mardapi (1999), tes pilihan ganda cenderung memiliki kesalahan penskoran yang kecil bahkan bisa nol bila digunakan komputer dalam pemeriksaannya, sedangkan bentuk tes uraian cenderung memiliki kesalahan penskoran yang lebih besar. Menurut Ebel & Fresbie (1986: 114), kelemahan bentuk tes objektif ialah bahwa bentuk tes objektif yang baik relatif lebih sulit dalam penyusunannya bila dibandingkan dengan bentuk uraian. Hal ini disebabkan dalam penyusunan bentuk tes objektif, khususnya pilihan ganda, perlu mempertimbangkan aspek asal menebak tetapi benar, dalam arti bahwa siswa yang mempunyai kemampuan rendah memiliki peluang tinggi untuk menjawab benar suatu item tes dengan taraf kesukaran di atas kemampuannya. Persoalan jawaban penempuh tes dengan menebak sebenarnya merupakan sesuatu yang benar-benar dapat mengancam reliabilitas tes. Respons penempuh tes terhadap penggunaan tes objektif berbeda bila dibandingkan dengan menggunakan bentuk tes uraian. Bila menghadapi tes objektif, persiapan penempuh tes cenderung kurang intensif karena adanya peluang untuk menebak jawaban. Pada bentuk tes uraian tidak tersedia alternatif jawaban dan tidak terdapat peluang untuk menebak jawaban

2 sehingga penempuh tes tes. harus mempunyai persiapan yang cukup intensif dalam menghadapi Dalam menyusun bentuk tes objektif, kemampuan pembuat tes dalam menyusun alternatif jawaban merupakan aspek yang sangat penting. Hal ini disebabkan penggunaan distractor yang tidak baik akan mengurangi kualitas item tes. Menurut teori probabilitas, bila digunakan tes pilihan ganda dengan k pilihan, maka peluang menebak jawaban dengan benar satu item soal adalah sebesar 1/k. Hal ini terjadi bila semua distractor berfungsi. Bila konstruksi tes kurang baik sehingga tidak semua distractor berfungsi dengan baik maka tingkat tebakan menjadi lebih tinggi. Tingkat tebakan yang dimaksud dalam hal ini adalah blind guessing, yaitu jawaban yang diberikan oleh penempuh tes dengan menebak tanpa membaca terlebih dulu pertanyaan dalam item tes. Tidak berfungsinya distractor dengan baik secara empirik ditunjukkan oleh hasil penelitian yang dilakukan Attali & Bar-Hillel (2003). Penelitian tersebut menyimpulkan bahwa baik penempuh tes maupun pembuat soal memiliki kecenderungan yang sama dalam memilih jawaban atau menempatkan kunci jawaban pada soal pilihan ganda, yaitu pada jawaban yang berada di tengah (b atau c). Hal ini tentunya meningkatkan kesempatan penempuh tes dalam menebak jawaban. Semakin tinggi tebakan penempuh tes ini tentunya akan memperlemah daya beda item. Hal ini diperparah lagi dengan kenyataan bahwa peluang bekerja sama antara penempuh tes pada bentuk tes objektif sangat tinggi. Semakin rendah daya beda item akan menyebabkan semakin homogen skor yang diperoleh, dan semakin homogen skor yang diperoleh penempuh tes, akan memperlemah reliabilitas tes tersebut (Allen & Yen, 1979: 73). Peningkatan peluang menjawab benar dengan menebak pada bentuk tes pilihan ganda akan mengurangi reliabilitas tes, sehingga estimasi reliabilitas tes menghasilkan koefisien yang lebih tinggi dari nilai yang sebenarnya. Zimmerman & Williams (2003: 358-359) telah merumuskan persamaan yang menunjukkan secara eksplisit pengaruh adanya keberhasilan dalam menjawab dengan menebak terhadap penurunan reliabilitas tes. Peningkatan peluang menjawab dengan menebak akan menurunkan reliabilitas tes. Penurunan reliabilitas tes secara teori klasik mempunyai makna semakin besar kesalahan pengukuran yang terjadi. Model penskoran pada bentuk tes objektif pada umumnya tidak menyediakan alternatif kategori untuk benar sebagian karena dalam tes objektif hanya terdapat dua kategori jawaban (bikategoris) yaitu benar dan salah. Pada penerapan teori tes klasik, kemampuan penempuh tes dilihat berdasarkan jumlah item yang berhasil dijawab. Dalam keadaan tersebut tidak ada perbedaan pemberian skor untuk item-item yang mengukur kemampuan rendah dan item-item yang mengukur kemampuan tinggi (Mardapi, 1999: 9). Untuk mengurangi kesalahan pengukuran pada penggunaan bentuk tes objektif dilakukan dengan penerapan model penskoran Item Response Theory (IRT). Hal ini dilakukan sebab dengan pendekatan IRT, kemampuan penempuh tes dilihat berdasarkan pola jawaban dari penempuh tes. Teori tes klasik menggunakan model matematika yang sangat sederhana untuk menunjukkan hubungan antara skor amatan, skor sebenarnya, dan skor kesalahan. Model ini diikuti dengan sejumlah asumsi untuk menyederhanakan formula dalam mengestimasi indeks kehandalan dan kesahihan suatu instrumen. Walaupun telah berkembang dengan pesat, teori tes klasik sebenarnya mempunyai beberapa kelemahan. Kelemahan tersebut adalah: (1) estimasi kemampuan penempuh tes tergantung pada karakteristik tes yang digunakan; (2) estimasi parameter item tergantung pada kemampuan penempuh tes; dan (3) kesalahan pengukuran hanya dapat dicari untuk kelompok, bukan individu (Mardapi, 2005: 8). Selain itu, asumsi tes paralel yang umumnya digunakan untuk mencari indeks kehandalan tes sangat sulit dipenuhi secara statistik. Beberapa kelemahan pada teori tes klasik dicoba diatasi dengan mengembangkan Item Response Theory (IRT). Dua asumsi utama pada teori ini adalah: (1) independensi lokal, yaitu kejadian menjawab benar suatu item dengan kejadian menjawab benar item yang lain adalah independen;

3 (2) unidimensi, substansi yang diukur adalah satu dimensi. Konsep dasar teori ini menggunakan distribusi normal, ojaif normal, kemudian berkembang menggunakan distribusi logistik dan ojaif logistik. Dengan penerapan IRT, kelemahan dari penerapan teori tes klasik dapat diatasi, yaitu: (1) estimasi kemampuan penempuh tes tidak tergantung pada karakteristik tes yang digunakan; (2) estimasi parameter item tidak tergantung pada kemampuan penempuh tes; dan (3) kesalahan pengukuran dapat dicari untuk tiap individu. Dengan menggunakan Item Response Theory (IRT), peluang menjawab benar dengan menebak tiap item disebut faktor tebakan ( c i ). Faktor tebakan ini pada kurva karakteristik menunjukkan jarak asimtot bawah terhadap skala kemampuan dan menyatakan probabilitas peserta ujian yang berkemampuan rendah menjawab item dengan benar (Hambleton, 1991: 17). Daya beda item didefinisikan sebagai proporsi slope kurva karakteristik pada titik = b i. Semakin tinggi daya beda item, semakin baik suatu item dalam membedakan kemampuan penempuh tes. Dua parameter tersebut, yaitu daya beda item dan faktor tebakan sangat menentukan besarnya fungsi informasi item yaitu nilai fungsi yang menyatakan ukuran ketepatan suatu pengukuran (Hambleton & Swaminathan, 1985: 101). Nilai fungsi informasi item akan maksimal bila daya beda item bernilai setinggi mungkin dan faktor tebakan sekecil mungkin (Hambleton, et al, 1991: 91). Fungsi informasi item ini dapat dimaknai sebagai reliabilitas dalam teori tes klasik. Banyak hal telah dilakukan untuk mengantisipasi kelemahan-kelemahan yang terdapat pada bentuk tes objektif, khususnya untuk tes pilihan ganda. Salah satu di antaranya dengan dikembangkan sistem penskoran yang memberikan hukuman bagi penempuh tes yang menjawab salah (Crocker & Algina, 1986: 400). Hal ini akan mengurangi kesempatan penempuh tes untuk menebak jawaban. Ada dua metode penskoran pada tes pilihan ganda yaitu : ( 1) Model konvensional yaitu skor hanya memperhitungkan yang benar saja sehingga skor didapat dengan menghitung jumlah benar dari soal yang dikerjakan, ( 2) Model koreksi: Skor dihitung dengan rumus sebagai berikut: Skor = B S (1) C 1 Dimana B= banyaknya jawaban benar, S= banyaknya jawaban salah dan C=banyaknya alternatif jawaban. Hingga saat ini kedua bentuk penskoran tersebut telah digunakan secara luas. Penskoran dengan koreksi secara rasional dipandang akan memperkecil peluang menebak sehingga meningkatkan reliabilitas atau fungsi informasi item sehingga kesalahan dalam pengukuran akan semakin kecil. Dengan kecilnya kesalahan pengukuran maka alat ukur tersebut akan lebih efektif. Hingga saat ini belum dilakukan penelitian yang komprehensif berkaitan dengan keefektifan kedua metode penskoran terutaama dengan tinjauan IRT. Banyak kriteria yang digunakan untuk melihat keefektifan suatu bentuk tes baik secara psikometris maupun nonpsikometris. Aspek nonpsikometris suatu bentuk tes diantaranya kepraktisan dan biaya yang dibutuhkan dalam pelaksanaan tes. Keefektifan psikometris berkaitan dengan nilai fungsi informasi tes. Nilai fungsi informasi tes merupakan jumlah nilai fungsi informasi item dari item-item penyusun tes. Perbedaan keefektifan dari dua tes yang mengukur trait yang sama, dilihat dari perbedaan nilai fungsi informasi tes. Rasio fungsi informasi tes dari dua tes menunjukkan efisiensi relatif dari suatu tes terhadap tes yang lain (Lord, 1990: 23). Formula fungsi informasi item untuk model logistik tiga parameter dengan penskoran dikotomus dutunjukkan berikut ini : 2 2.89ai I ci Ii ; dengan i=1,2,3. n (2 ) 1.7a 1.7 2 i bi ai bi c e I e e i Penelitian ini pada dasarnya membandingkan keefektifan secara psikometri model penskoran konvensional dan koreksi ditinjau secara teori tes klasik maupun IRT. Secara teori tes klasik keefektifan tes dioperasionalkan sebagai tingkat reliabilitas tes sedangkan secara IRT dengan mencari nilai fungsi informasi dari tiap item. Oleh karenanya penelitian ini bertujuan

4 menemukan: (1) perbedaan reliabilitas tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi, (2) perbedaan fungsi informasi item pada tes prestasi belajar matematika bentuk pilihan ganda yang diskor dengan konvensional dan koreksi. B. Hasil Penelitian Dan Diskusi Data empirik diambil dari respons 755 siswa kelas X dari SMA N 4 Kota Tegal dan SMAN I Kramat Kabupaten Tegal. Terdapat 353 siswa yang megerjakan tes dengan penskoran konvensional dan 352 dengan penskoran koreksi. Tes yang digunakan adalah tes prestasi belajar matematika siswa SMA kelas X pokok bahasan Trigonometri sebanyak 20 item pilihan ganda. Analisis secara klasik dilakukan dengan mengestimasi parameter item yang terdiri dari tingkat kesukaran item dan daya beda item serta reliabilitas dari respons siwa pada kedua tes tersebut. Estimasi reliabilitas dilakukan dengan rumus koefisien Alpha, formula Kuder-Richardson 21, formula Spearman Brownman dan formula Rulon. Analisis dengan IRT menggunakan model logistik 2 parameter dengan bantuan R program. Hasil penelitian dengan analisis klasik dapat ditunjukan pada Tabel 1dan Tabel 2.Tingkat kesukaran dan daya beda item pada item yang diskor dengan konvensional dan koreksi dapat dilihat pada Tabel 1 sedangkan estimasi reliabilitas dapat dilihat pada Tabel 2. Tabel 1: Tingkat Kesukaran dan Daya Beda Item Hasil Analisis Secara Teori Tes Klasik No Item Penskoran Konvensional Penskoran Koreksi b(tingkat kesukaran) a (daya beda) b(tingkat kesukaran) a (daya beda) 1 0,93 0,39 0,54 0,52 2 0,66 0,26 0,48 0,56 3 0,72 0,35 0,46 0,68 4 0,79 0,25 0,61 0,42 5 0,80 0,36 0,45 0,50 6 0,75 0,35 0,52 0,56 7 0,80 0,26 0,53 0,62 8 0,71 0,36 0,52 0,75 9 0,60 0,37 0,45 0,57 10 0,82 0,22 0,56 0,64 11 0,75 0,36 0,47 0,60 12 0,77 0,29 0,78 0,66 13 0,83 0,22 0,52 0,59 14 0,82 0,25 0,61 0,65 15 0,77 0,36 0,54 0,35 16 0,75 0,38 0,53 0,68 17 0,84 0,23 0,61 0,42 18 0,79 0,28 0,54 0,54 19 0,82 0,37 0,57 0,49 20 0,73 0,29 0,52 0,60 Tabel 2: Estimasi Reliabilitas pada tes dengan Penskoran Konvensional dan Koreksi No Tipe Reliabilitas Penskoran Konvensional Penskoran Koreksi 1 Alpha 0,700 0,844 2 KR-21 0,698 0,876 3 Spearman-Brown 0,815 0,880 4 Rulon 0,666 0,881 Tabel 3: Tingkat Kesukaran dan Daya Beda Item Hasil Analisis IRT

Probability 0.0 0.2 0.4 0.6 0.8 1.0 5 No Item Penskoran konvensional Penskoran Koreksi b(tingkat kesukaran) a (daya beda) b(tingkat kesukaran) a (daya beda) 1-20.102 0.176-1.018 34.225 2-0.806 1.661-0.682 1.926 3 0.053 21.308-0.596 2.105 4-1.989 1.211-0.791 2.350 5-2.011 1.089-0.880 1.225 6-1.474 1.681-0.067 22.781 7-1.767 1.317-0.655 2.046 8-1.335 1.434-0.755 1.691 9-0.491 1.634-1.024 1.228 10-2.760 0.988-0.500 1.911 11-1.592 1.425-0.809 1.633 12-1.845 1.184-0.751 1.787 13-2.258 1.472-0.978 1.300 14-1.480 1.460-0.491 1.829 15-1.379 1.940-0.850 1.672 16-1.862 1.045-0.680 1.259 17-1.674 1.647-0.791 1.388 18-1.854 1.139-0.849 1.506 19-4.642 0.373-0.818 29.953 20-0.996 0.595-1.018 34.225 Hasil analisis dengan IRT bertujuan mengestimasi parameter item yang bersifat invarian. Parameter tersebut meliputi tingkat kesukaran item (b) dan daya beda item(b) serta fungsi informasi item dari kedua bentuk tes. Parameter-parameter tersebut dapat dilihat pada Tabel 3 dan Gambar 1 dan Gambar 2. Gambar 1: Fungsi Informasi Item Pada Tes dengan Penskoran Konvensional Item Characteristic Curves ITEM1 ITEM13 ITEM14 ITEM15 ITEM16 ITEM17 ITEM18 ITEM10 ITEM11 ITEM12 ITEM19 ITEM20 ITEM5 ITEM6 ITEM4 ITEM7 ITEM8 ITEM9 ITEM2 ITEM3-4 -2 0 2 4 Ability Gambar 2: Fungsi Informasi Item Pada Tes dengan Penskoran Konvensional

Probability 0.0 0.2 0.4 0.6 0.8 1.0 6 Item Characteristic Curves ITEM14 ITEM15 ITEM16 ITEM17 ITEM18 ITEM19 ITEM20 ITEM12 ITEM13 ITEM11 ITEM9 ITEM10 ITEM8 ITEM5 ITEM7 ITEM1 ITEM2 ITEM3 ITEM4 ITEM6-4 -2 0 2 4 Ability Hasil analisis menunjukkan bahwa secara teori tes klasik, item dengan penskoran koreksi mempunyai daya beda yang lebih tinggi dibanding dengan item yang diskor dengan konvensional. Pada tingkat kesukaran item, juga terlihat bahwa item yang diskor dengan koreksi dianggap lebih sulit oleh siswa dibanding dengan item dengan penskoran konvensional. Hal ini membuktikan bahwa bagi peserta tes, dengan adanya hukuman bagi yang menjawab salah, mereka tidak melakukan tebakan terhadap jawaban benar sehingga hanya peserta tes yang benar benar berkemampuan tinggi saja yang dapat menjawab benar. Hal ini juga didukung oleh besarnya estimasi reliabilitas tes dimana estimasi reliabilitas tes pada tes dengan penskoran koreksi lebih tinggi dari estimasi reliabilitas tes pada tes yang menggunakan penskoran konvensional. Tabel 2 menunjukkan dari 4 jenis estimasi reliabilitas, pada tes dengan penskoran koreksi memberikan estimasi reliabilitas yang lebih tinggi dibanding pada tes dengan penskoran konvensiona. Bila reliabilitas menunjukkan ketepatan pengukuran dalam teori tes klasik dapat disimpulkan bahwa penskoran koreksi lebih efektif atau lebih tepat menggambarkan kemampuan siswa dibanding dengan penskoran konvensional. Salah satu kelemahan teori tes klasik adalah parameter item yang tidak bebas dari sampel dan penggunaan skor jawaban benar sebagai skor kemampuan siswa, oleh kerenanya perlu penggunaan IRT sehingga didapatkan kesimpulan yang lebih komprehensif. Secara IRT, dengan item yang sama mempunyai tingkat kesukaran item yang lebih tinggi pada tes yang diskor dengan koreksi dibanding pada tes yang diskor denga konvensional. Demikian pula dengan daya beda item, pada tes yang menggunakan penskoran koreksi mempunyai nilai yang lebih besar dibanding tes yang menggunakan penskoran konvensional. Tingginya daya beda item ini menyebabkan semakin curamnya fungsi informasi item pada tes dengan penskoran koreksi dibanding pada penskoran konvensional seperti dijelaskan pada Gambar 1 dan Gambar 2. Kurva informasi item yang terdapat pada Gambar1 dan Gambar 2 terlihat perbedaan yang jelas antara item-item yang disusun dalam tes dengan penskoran konvensional dan koreksi. Kurva fungsi informasi item pada tes dengan penskoran koreksi jauh lebih curam dibanding dengan kurva informasi item pada tes dengan penskoran konvensional.

7 Ada yang perlu diperhatikan lebih dalam dari hasil analisis secara IRT. Bila pada analisis secara klasik tingginya daya beda dan rendahnya tingkat kesukaran( soal dianggap lebih sulit ) terjadi secara merata pada semua item yang diskor dengan koreksi dibanding item dengan penskoran konvensional, namun pada hasil analisis IRT ada beberapa item yang tidak mengikuti kecenderungan umum. Hal ini terjadi pada item nomor 3, 9, 13, 15 dan 17. Daya beda item secara IRT pada item nomor 3, 9, 13, 15 dan 17, lebih tinggi pada penskoran konvensional dibanding penskoran koreksi, sesuatu yang berbeda dengan kecenderungan umum, namun demikian perbedaan yang cukup signifikan hanya pada nomor 3 dan 9. Item nomor 3 dan 9 sangat berbeda dengan kecendurungan item-item yang lain, disamping perbedaan yang cukup besar untuk nilai daya beda, demikian pula tingkat kesukaran secara IRT lebih tinggi dibanding pada penskoran koreksi, sesuatu yang berbeda dengan 18 item yang lain dimana tingkat kesukaran pada penskoran koreksi lebih tinggi dibanding pada penskoran konvensional. Dari beberapa riset yang telah dilakukan(purwo, 2009) pada analisis IRT, ada kecenderungan umum bila tingkat kesukaran naik maka daya beda akan meningkat., namun demikian untuk kasus lain dijumpai sebaliknya, hingga saat ini belum dikaji lebih dalam hubungan parameter daya beda dan tingkat kesukaran pada analisis IRT. Oleh karena itu penjelasan secara rasional dan empirik untuk kasus pada item nomor 3 dan 9 belum bisa dijelaskan lebih lanjut dalam studi ini. Analisis konten item mungkin akan lebih tepat untuk menjelaskan pada item nomor 3 dan 9 dan hal yersebut diluar dari tujuan studi ini. C. Kesimpulan Dari hasil penelitian dan pembahasan, menunjukkan bahwa secara IRT dapat ditunjukkan bahwa penskoran dengan koreksi mempunyai tingkat ketepatan yang lebih tinggi dibanding tes dengan penskoran konvensional. Dengan demikian dapat disimpulkan bahwa baik secara teori tes klasik maupun IRT tes prestasi belajar matematika dengan penskoran koreksi lebih efektif dibanding dengan penskoran konvensional. DAFTAR PUSTAKA Allen, M. J. & Yen, W. M. (1979). Introduction to measurement theory. Belmont, CA : Woodsworth, Inc. Attali, Y & Tamar, F.(2000). The point-biserial as a discrimination index for distractor in multiple choice item: Deficiencies in usage and an alternative. Journal of Education Measurement,. 37 (1), 77-86. Attali,Y & Bar-Hillel, M.(2003). Guess where: The position of correct answer in multiple choice test item as psychometric variable. Journal of Educational Measurement, 40 (2), 109-128. Crocker, L & Algina, J. (1986). Introduction to classical and modern test theory, Holt, Rinerhart and Wiston, New York Ebel, R L & Frisbie, D. A. (1986). Essentials of educational measurement. Englewood Cliffs, NJ: Prentice Hall, Inc. Fernandes, H. J. X. (1984). Testing and measurement. Jakarta: National Education Planing, Evaluation and Curriculum Develepment Hambleton, R K. (1989). Principles and selected applications of item response theory. Dalam R.L. Linn (Ed.). Educational Measurement hal. 147-200. New York: Macmillan.. Hambleton, R. K & Jones, R. W. (1994). Item parameter estimation errors and their influence on test information functions. Applied Measurement in Education, 7(3), 171-186. Hambleton, R. K & Swaminathan, H. (1985). Item response theory. Boston, MA: Kluwer.

8 Lord, F. M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ: Lawrence Erlbaum Associates, Inc. Mardapi, D. (Maret 1997). Ragam bentuk evaluasi. Makalah Semiloka Evaluasi Sistem Penilaian dan Pengukuran Hasil Belajar Mahasiswa UGM, di Universitas Gadjah Mada..(1999). Estimasi kesalahan pengukuran dalam bidang pendidikan dan implikasinya pada ujian nasional. Pidato Pengukuhan Guru Besar. Yogyakarta. 11 September 1999.(2004). Penyusunan tes hasil belajar. Tidak diterbitkan. Program Pascasarjana, Universitas Negeri Yogyakarta..(April 2005). Penerapan matematika dan statistika pada pengukuran pendidikan.. Makalah Seminar Nasional Matematika II, di Universitas Pancasakti. Purwo Susongko,(2009). Perbandingan Keefektifan Bentuk Tes Uraian dan Testlet dengan Penerapan Graded Response Model (GRM). Disertasi. Yogyakarta: Program Pascasarjana Universitas Negeri Yogyakarta, tidak diterbitkan. Zimmerimen, D. W. & Williams, H. R (2003). A New look at the influence of guessing on the reliability of multiple choice tests. Applied Psychological Measurement, 27(5), 319-334.