Keakuratan Hasil Analisis Butir Menurut Teori Tes Klasik dan Teori Respons Butir Ditinjau dari Ukuran Sampel

dokumen-dokumen yang mirip
PSIKOMETRI. Oleh: Prof. Dr. I Wayan Koyan, M.Pd. Pascasarjana Undiksha Singaraja

Kata Kunci: Analisis Butir Tes, Teori respons butir, soal matematika

Abstrak Pengembangan Bank Soal Matematika. Oleh : Heri Retnawati Jurdik Matematika FMIPA UNY Yogyakarta. Abstrak

: <Dr: SamsuCjfadi, M.Kpm

ANALISIS ITEM DENGAN PENDEKATAN IRT

HASIL DAN PEMBAHASAN. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika

ABSTRAK.

Pendeteksian Bias Tes dan Butir Perangkat Soal Matematika Ujian Nasional SLTP Berdasarkan Teori Respons-Butir ABSTRAK

Pendekatan Regresi Logistik dalam Pendektesian DIF

PERBEDAAN KETEPATAN ESTIMASI TINGKAT KESUKARAN BUTIR TES PILIHAN GANDA PADA PENSKORAN KOREKSI DAN KONVENSIONAL DENGAN PENERAPAN MODEL RASCH

KEBERFUNGSIAN BUTIR DIFERENSIAL PERANGKAT TES UJIAN AKHIR SEKOLAH BERSTANDAR NASIONAL (UASBN) MATA PELAJARAN MATEMATIKA DI KOTA KENDARI

KEBERFUNGSIAN ITEM DIFFERENSIAL PADA PERANGKAT TES UJIAN NASIONAL MATEMATIKA SEKOLAH MENENGAH ATAS DI JAWA TENGAH. Samsul Hadi

Partial Credit Model (PCM) dalam Penskoran Politomi pada Teori Respon Butir

AKTERISTIK BUTIR TES MATEMATIKA PADA TES BUATAN MGMP MATEMATIKA KOTA PALOPO BERDASARKAN TEORI KLASIK

KONSISTENSI PARAMETER TES. Rustam (Universitas Terbuka) Abstrak

STRATEGI PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK MENINGKATKAN KEAMANAN TES

ESTIMASI KESALAHAN PENGUKURAN PERANGKAT SOAL UJI COBA UJIAN NASIONAL MATA PELAJARAN EKONOMI SMA DI KABUPATEN BANJARNEGARA

PENSKORAN POLITOMI DALAM TEORI RESPON BUTIR MENGGUNAKAN GRADED RESPONSE MODEL (GRM) Kata Kunci: Item Respon Teori (IRT), Graded Response Model (GRM)

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Panduan Penggunaan AnBuso 2015

MODEL PENGEMBANGAN BANK SOAL BERBASIS GURU DAN MUTU PENDIDIKAN

Rencana Pelaksanaan Perkuliahan

BAB I PENDAHULUAN. Evaluasi merupakan salah satu bagian dari proses pembelajaran. Evaluasi itu

Jurnal Media Pendidikan Matematika J-MPM Vol. 2 No. 1, ISSN

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

Laporan Penelitian. Analisis Kualitas Butir Soal Mata Kuliah Membaca 2 (PBIN4329)

ANALISIS BUTIR SOAL UJIAN TENGAH SEMESTER MATA DIKLAT TEORI PRODUKTIF UNTUK SISWA KELAS X SMK MUHAMMADIYAH 1 BANTUL 2012/2013 ARTIKEL

DEPARTEMEN PENDIDIKAN NASIONAL UNIVERSITAS NEGERI YOGYAKARTA PROGRAM PASCASARJANA

SILABI. Pokok Bahasan Sub Pokok Bahasan dan Sasaran Belajar Cara Pengajaran. : memahami dan menjelaskan definisi pengukuran

PENYETARAAN HORISONTAL PERANGKAT TES UJICOBA UJIAN NASIONAL MATEMATIKA SMA PROGRAM IPA DI SMAN KOTA YOGYAKARTA TAHUN PELAJARAN 2009/2010

Skripsi disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan Biologi. oleh Mahanani

PENINGKATAN KOMPETENSI TENAGA PENDIDIK DALAM PENGEMBANGAN TES MENGGUNAKAN METODE EQUATING

EFEK PEMUSATAN DATA TERHADAP PARAMETER ITEM BERBASIS CLASICAL TEST THEORY (CTT)

Perbandingan Penskoran Dikotomi dan Politomi dalam Teori Respon Butir untuk Pengembangan Bank Soal Matakuliah Matematika Dasar

Jurnal Penelitian dan Evaluasi Pendidikan

ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK: SEBUAH PENGANTAR. Oleh: Djunaidi Lababa*

Analisis Dan Simulasi Dengan Program Win-Gen (Strategi Dalam Mengkonstruk Instrumen Soal)

PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK PENINGKATAN KEAMANAN TES. Agus Santoso FMIPA Universitas Terbuka

PEP Educational Assessment Volume 1 Nomor 1 Tahun 2017 p-issn: X e-issn: Homepage:

ANALISIS BUTIR SOAL ISMUBA (AL-ISLAM, KEMUHAMMADIYAHAN DAN BAHASA ARAB) KELAS IV SD MUHAMMADIYAH 5

Jurnal Pedagogika dan Dinamika Pendidikan

ANALISIS BUTIR SOAL DAN KEMAMPUAN BAHASA INDONESIA SISWA SMK DALAM UJIAN NASIONAL TAHUN 2011

ESTIMASI KESALAHAN BAKU PENGUKURAN SOAL TRY OUT USBN KIMIA SMA KOTA MAKASSAR

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

KUALITAS TES PILIHAN GANDA (MULTIPLE-CHOICE) SEBAGAI UPAYA MEMBENTUK PROSES BERFIKIR MAHASISWA

KUALITAS TES UJIAN AKHIR SEKOLAH BERSTANDAR NASIONAL (UASBN) IPA SD TAHUN PELAJARAN 2007/2008 DI KOTA KENDARI. Oleh: Muh. Nurung.

PROGRAM QUEST SALAH SATU CARA MENINGKATKAN VALIDITAS INTERNAL PENELITIAN BAHASA INDONESIA

Analisis Butir Soal Tes Prestasi Hasil Belajar

Psikometri. Reliabilitas 1

INAPPROPRIATNESS SCORE BASED ON ITEM RESPONSE THEORY

AN ANALYSIS OF QUALITY OF CIVICS EDUCATION FINAL EXAMINATION TEST IN REGENCY OF KUDUS

PENGANTAR TEORI TES KLASIK (TTK)*)

ANALISIS BUTIR SOAL PILIHAN GANDA UJIAN AKHIR SEMESTER MAHASISWA DI UNIVERSITAS TERBUKA DENGAN PENDEKATAN TEORI TES KLASIK

TEKNIK PENSKORAN TES OBYEKTIF MODEL PILIHAN GANDA Khaerudin 1

IDENTIFIKASI NEED ASSESSMENT: STUDI AWAL MODEL PENGEMBANGAN BANK SOAL BERBASIS GURU DI PROVINSI DIY

KEMAMPUAN GURU DALAM MERANCANG TES BERBENTUK PILIHAN GANDA PADA MATA PELAJARAN IPS UNTUK UJIAN AKHIR SEKOLAH (UAS)

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES. Saifuddin Azwar Universitas Gadjah Mada

EVALUASI PEMBELAJARAN GEOGRAFI

ANALISIS BUTIR SOAL DENGAN PENDEKATAN CLASSICAL TEST THEORY DAN ITEM RESPONSE THEORY. Wiwin Mistiani Teacher Training and Tarbiyah Faculty, IAIN Palu

SISTEM EVALUASI PEMBELAJARAN PAI (KE-1) PROGRAM PASCA SARJANA STAIN SALATIGA

ANALISIS BUTIR SOAL DENGAN ANBUSO Oleh: Ali Muhson

KODE MK POR 587 PROGRAM STUDI PENDIDIKAN JASMANI, KESEHATAN DAN REKREASI JURUSAN PENDIDIKAN OLAHRAGA FPOK UPI

KARAKTERISTIK SOAL UASBN MATA PELAJARAN BAHASA INDONESIA DI DAERAH ISTIMEWA YOGYAKARTA PADA TAHUN PELAJARAN 2008/2009

Karakteristik Butir Tes dan Analisisnya. Oleh: Heri Retnawati

Aplikasi IRT dalam Analisis Aitem Tes Kognitif

KUALITAS TES PRA OLIMPIADE BIDANG STUDI MATEMATIKA TINGKAT SMP DI KOTA BAUBAU

KODE MK POR 587 PROGRAM STUDI PENDIDIKAN JASMANI, KESEHATAN DAN REKREASI JURUSAN PENDIDIKAN OLAHRAGA FPOK UPI

P - 16 ANALISIS KEMAMPUAN BERPIKIR KRITIS MATEMATIK SISWA DENGAN MENGGUNAKAN GRADED RESPONSE MODELS (GRM)

DIFFERENTIAL ITEM FUNCTIONING (KEBERBEDAAN FUNGSI BUTIR)

Suhariyono, Sriyono, Nur Ngazizah

BAB III METODE PENELITIAN. Metode penelitian adalah cara yang digunakan oleh peneliti dalam

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES

METODE PENELITIAN. Populasi dalam penelitian ini adalah seluruh siswa kelas VIII SMPN 1 Pringsewu

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS NEGERI YOGYARTA

Heri Retnawati Pend. Matematika FMIPA UNY. Abstrak

MENYUSUN INSTRUMEN YANG VALID Dalam menyusun dan menganalisis instrument non tes pada makalah ini, kami menggunakan Skala Likert supaya dalam

KOMPARASI BEBERAPA METODE ESTIMASI KESALAHAN PENGUKURAN. Catharina Sri Wahyu Widayati. LPMP DIY

EVALUASIPENYELENGGARAANEBTANAS

ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK

Jurnal Evaluasi Pendidikan Volume 3, No 1, Maret 2015 (12-25) Online:

KESTABILAN ESTIMASI PARAMETER KEMAMPUAN PADA MODEL LOGISTIK ITEM RESPONSE THEORY DITINJAU DARI PANJANG TES

EFISIENSI DAN AKURASI COMPUTERIZED ADAPTIVE TESTING PADA SISTEM UJIAN AKHIR SEMESTER UNIVERSITAS TERBUKA

ANALISIS BUTIR TES OBJEKTIF UJIAN AKHIR SEMESTER MAHASISWA UNIVERSITAS TERBUKA BERDASARKAN TEORI TES MODERN

RENCANA PEMBELAJARAN SEMESTER (RPS)

LAPORAN PENGABDIAN PADA MASYARAKAT BERBASIS HASIL PENELITIAN

Jurnal Evaluasi Pendidikan Volume 3, No 1, Maret 2015 (26-34) Online:

KOMPARASI ESTIMASI RELIABILITAS PADA MATA PELAJARAN SEJARAH DITINJAU DARI HOMOGENITAS DAN HETEROGENITAS KELOMPOK

Kriteria Instrumen dalam suatu Penelitian

ANALISIS BUTIR SOAL A. PENDAHULUAN

HUBUNGAN MODEL PENSKORAN TERHADAP ESTIMASI SKOR SESUNGGUHNYA BERDASARKAN TEORI RESPONS BUTIR. Musmuliadi. LPMP NTB

r P1, r P2,..., r p30 r R1, r R2,..., r R30

THE ACCURACY OF THE FIXED PARAMETER CALIBRATION METHOD: STUDY OF MATHEMATICS NATIONAL EXAMINATION TEST

BAB III METODE PENELITIAN

SILABUS FORM (FR) Mata Kuliah

Jurnal Evaluasi Pendidikan Volume 3, No 2, September 2015 ( ) Online:

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES BERDASARKAN TEORI RESPON BUTIR

RENCANA PEMBELAJARAN SEMESTER

MANUAL ITEM AND TEST ANALIYSIS (ITEMAN) PEDOMAN PENGGUNAAN ITEMAN

Jurnal Evaluasi Pendidikan Volume 4, No 1, Maret 2016 (58-68) Online:

Jurnal Evaluasi Pendidikan Volume 3, No 1, Maret 2015 (90-98) Online:

Transkripsi:

Keakuratan Hasil Analisis Butir Menurut Teori Tes Klasik dan Teori Respons Butir Ditinjau dari Ukuran Sampel Kana Hidayati Jurusan Pendidikan Matematika FMIPA UNY ABSTRAK Penelitian ini bertujuan untuk mengungkapkan: (1) hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari berbagai ukuran sampel, (2) besarnya kesalahan pengukuran (SEM), dan (3) ukuran sampel yang akurat untuk analisis butir menurut teori tes klasik dan teori respons butir. Populasi penelitian ini adalah respons siswa peserta Ujian Akhir Nasional mata pelajaran Matematika SLTP di propinsi DIY tahun pelajaran 2001/2002 yang tersebar dalam 436 SLTP dengan keseluruhan peserta berjumlah 42.574 siswa. Sampel penelitian diambil dengan teknik random systematic sampling. Ukuran sampel dibedakan dalam dua kategori yakni besar (>500) dan kecil ( 500). Analisis butir untuk ukuran sampel kategori besar dilakukan pada ukuran sampel 600, 750, dan 1000, sedangkan untuk ukuran sampel kategori kecil dilakukan pada ukuran sampel 100, 250, dan 500. Kegiatan analisis butir menurut teori tes klasik dan teori respons butir dilakukan dengan program Bilog versi 3.07. Besarnya harga indeks reliabilitas dihitung dengan program SPSS versi 10.0 dan harga fungsi informasi tes dihitung dengan menggunakan program EXCEL 2000. Hasil analisis butir menurut teori tes klasik untuk kategori ukuran sampel besar menunjukkan bahwa pada ukuran sampel 600, 31 butir baik, indeks reliabilitasnya 0,7732, dan SEM 2,8672; ukuran sampel 750, 31 butir baik, indeks reliabilitasnya 0,6341, dan SEM 2,9342; ukuran sampel 1000, 29 butir baik, indeks reliabilitasnya 0,6945, dan SEM 3,2951. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100, 33 butir baik, indeks reliabilitasnya 0,8729, dan SEM 2,6670; ukuran sampel 250, 34 butir baik, indeks reliabilitasnya 0,8532, dan SEM 2,1342; ukuran sampel 500, 32 butir baik, indeks reliabilitasnya 0,8921, dan SEM 2,3278. Menurut teori respons butir, untuk kategori ukuran sampel besar menunjukkan bahwa pada ukuran sampel 600, 33 butir baik, fungsi informasinya 0,4237, dan SEM 1,6479; ukuran sampel 750, 36 butir baik, fungsi informasinya 0,5496, dan SEM 1,1489; ukuran sampel 1000, 35 butir baik, fungsi informasinya 0,5642, dan SEM 1,3423. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100, 31 butir baik, fungsi informasinya 0,5496, dan SEM 1,6731; ukuran sampel 250, 34 butir baik, fungsi informasinya 0,5496, dan SEM 1,7349; ukuran sampel 500, 34 butir baik, fungsi informasinya 0,4315, dan SEM 1,9241. Dengan demikian dapat disimpulkan bahwa analisis butir menurut teori tes klasik akan akurat apabila menggunakan ukuran sampel kecil dan menurut teori respons butir akan akurat apabila menggunakan ukuran sampel besar. Secara keseluruhan SEM yang paling kecil diperoleh jika menggunakan teori respons butir. Kata kunci: analisis butir, teori tes klasik, teori respons butir, ukuran sampel. 1

Pendahuluan Pelaksanaan pengukuran di bidang pendidikan pada prinsipnya bertujuan untuk mengetahui karakteristik suatu objek seperti kemampuan, keberhasilan belajar, sikap, minat atau ciri terpendam lainnya yang terdapat pada peserta didik namun tidak kelihatan dan tidak dapat diukur langsung. Untuk mengukur berbagai karakteristik yang terpendam itu sangat diperlukan alat ukur yang baik sehingga mampu mengungkap secara benar ciri terpendam pada peserta didik. Alat ukur yang baik adalah alat ukur yang memenuhi persyaratan dan mampu menghasilkan informasi yang mengandung kesalahan sekecil mungkin. Alat ukur yang digunakan dalam bidang pendidikan biasanya berupa tes dan non tes. Selain itu, pengukuran juga bisa ditempuh melalui observasi atau wawancara. Berkaitan dengan alat ukur berupa tes yang terdiri dari sejumlah butir yang sering digunakan dalam pengukuran pendidikan harus dianalisis untuk mengetahui kualitas alat ukur tersebut. Kegiatan analisis butir dilakukan berdasarkan suatu teori dengan asumsi-asumsi yang mendasarinya. Secara umum teori yang kuat adalah teori yang menggunakan asumsi yang banyak sehingga menghasilkan informasi yang lebih teliti. Ada dua teori pengukuran pendidikan yang saat ini berkembang dan banyak digunakan dalam merancang dan menganalisis suatu tes. Teori yang pertama adalah teori tes klasik yang dikembangkan sejak tahun 1940 dan telah digunakan secara luas, kedua adalah teori respons butir yang menggunakan lebih banyak asumsi dibandingkan teori pertama. Teori tes klasik telah banyak berjasa dalam bidang pengukuran dan bahkan masih digunakan sampai sekarang. Namun demikian, oleh karena teori tes klasik memiliki berbagai keterbatasan dengan adanya sifat group dependent dan item dependent maka munculnya teori respons butir menjadi sangat berguna dan terus dikembangkan karena mampu mengatasi keterbatasan tersebut (Hambleton, Swaminathan & Rogers, 1991: 2-5). Ditinjau dari banyaknya asumsi, teori respons butir memang diharapkan akan memberikan informasi yang lebih teliti dibandingkan teori tes klasik. Namun demikian, berkaitan dengan ukuran sampel, baik teori tes klasik maupun teori respons butir tidak mensyaratkan ukuran sampel secara pasti (Crocker L. & 2

Algina J., 1986:322). Dengan demikian penggunaan kedua teori ini tergantung kepada pemakainya. Setiap teori tentu memiliki kelemahan dan kelebihan yang diantaranya dapat dilihat dari sudut kemudahan penggunaan dan pemahaman, ketepatan analisis, dan biaya yang digunakan. Oleh karena itu penelitian tentang keakuratan hasil analisis butir menurut teori tes klasik dan teori respons butir dengan menggunakan ukuran sampel yang berbeda ini sangat diperlukan untuk menunjang efektifitas kegiatan analisis butir. Parameter yang digunakan pada analisis butir berdasarkan teori tes klasik dan teori respons butir pada dasarnya adalah sama yaitu tingkat kesukaran, daya pembeda, tebakan semu (pseudo guessing), dan kemampuan. Perbedaanya terletak pada formula, skala, dan satuan yang digunakan. Selain itu, analisis butir suatu tes dengan teori tes klasik dan teori respons butir pada prinsipnya juga dilakukan untuk menaksir kemampuan seseorang yang diharapkan memiliki kesalahan sekecil mungkin. Kesalahan pengukuran menurut teori tes klasik dinyatakan dengan kesalahan baku pengukuran (Standar Error of Measurement/SEM) yang besarnya tergantung pada indeks kehandalan tes. Untuk teori respons butir kesalahan pengukuran dinyatakan dengan kesalahan baku pengukuran (Standar Error of Measurement/SEM) yang besarnya tergantung pada tingkat kemampuan seseorang dan fungsi informasi tes. Adanya kesalahan yang melekat pada data hasil pengukuran ini disebabkan oleh banyak faktor diantaranya adalah alat ukur itu sendiri, pelaksanan pengukuran, objek pengukuran, dan teknik analisis yang digunakan. Saat ini, banyak peneliti menguji instrumen yang berupa tes untuk mengumpulkan data menggunakan teori tes klasik. Hal ini karena teori ini sudah lama berkembang sehingga banyak peneliti megetahui teori ini walau tidak secara mendalam. Penggunaan formula hanya berdasarkan kemudahan tanpa memperhatikan asumsi yang mendasarinya. Teori respons butir yang menghasilkan informasi yang lebih teliti semestinya juga menjadi acuan bagi para peneliti dalam menganalisis suatu tes. Dengan demikian estimasi karakteristik suatu objek akan lebih teliti serta kesimpulan yang dibuat dan kebijakan yang dipilih akan semakin tepat. 3

Untuk mengetahui kekuratan hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari ukuran sampel dibutuhkan data. Data yang digunakan dalam penelitian ini adalah respons siswa terhadap perangkat soal UAN SLTP mata pelajaran Matematika yang diasiapkan oleh Pusat Penilaian Pendidikan mengingat berbagai ukuran sampel yang digunakan dalam penelitian ini. Permasalahan yang diajukan dalam penelitian ini adalah sebagai berikut: (1) bagaimanakah hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari berbagai ukuran sampel?, (2) berapakah besarnya kesalahan pengukuran (SEM)?, dan (3) bagaimanakah keakuratan hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari ukuran sampel?. Penelitian ini bertujuan untuk mengungkapkan: (1) bukti empiris tentang hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari berbagai ukuran sampel, (2) besarnya kesalahan pengukuran (SEM), dan (3) keakuratan hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari ukuran sampel. Hasil penelitian ini diharapkan memberikan wacana baru dalam kegiatan peningkatan kualitas suatu tes dan secara akademis dapat digunakan sebagai dasar atau pendukung kesimpulan awal bagi para peneliti lain untuk melakukan penelitian lanjutan (pengembangan) maupun penelitian sejenis (perluasan). Secara praktis penelitian ini diharapkan bermanfaat untuk mengetahui ketepatan teori dalam melakukan analisis butir pada ukuran sampel tertentu dan sebagai sumber informasi dalam pemilihan butir-butir soal yang layak untuk bank soal Matematika yang akan dikembangkan baik di pusat maupun di daerah. Metode Penelitian Penelitian ini bersifat ex-post facto sehingga dalam penelitian ini tidak dilakukan perlakuan apapun terhadap variabel penelitian. Penelitian dilakukan di Kantor Dinas Pendidikan propinsi DIY. Data utama dalam penelitian ini adalah respons siswa peserta UAN SLTP mata pelajaran Matematika paket utama 1 di Propinsi DIY tahun pelajaran 2001/2002. Pengumpulan data dilakukan dengan 4

menggunakan teknik dokumentasi yaitu dengan mengutip respons siswa peserta Ujian Akhir Nasional. Populasi penelitian ini adalah respons siswa peserta Ujian Akhir Nasional SLTP mata pelajaran Matematika di propinsi DIY tahun pelajaran 2001/2002 yang tersebar dalam 436 SLTP dengan keseluruhan peserta berjumlah 42.574 siswa. Sampel penelitian diambil dengan teknik random systematic sampling. Ukuran sampel dibedakan dalam dua kategori yakni besar (>500) dan kecil ( 500). Analisis butir untuk ukuran sampel kategori besar dilakukan pada ukuran sampel 600, 750, dan 1000, sedangkan untuk ukuran sampel kategori kecil dilakukan pada ukuran sampel 100, 250, dan 500. Prosedur pengambilan sampel penelitian untuk setiap ukuran sampel adalah sebagai berikut: (1) membuat daftar peserta UAN berdasarkan skor peserta yang diperoleh dengan urutan dari yang tertinggi hingga terendah, (2) menentukan ukuran interval dengan menggunakan rumus N/n, dimana N adalah jumlah seluruh siswa dan n menyatakan ukuran sampel yang diinginkan, (3) mengambil sampel dari interval pertama secara acak sederhana yaitu dengan menggunakan bilangan acak dari kalkulator, (4) setelah sampel dari interval pertama diperoleh, pengambilan sampel berikutnya dilakukan secara sistematis dengan jarak satu interval dari sampel pertama sehingga diperoleh ukuran sampel yang telah ditentukan dan apabila sampai dengan interval terakhir belum memenuhi ukuran sampel yang dikehendaki pengambilan diteruskan secara berputar ke interval pertama lagi sampai diperoleh ukuran sampel yang dikehendaki. Kegiatan analisis data dalam penelitian ini meliputi dua hal pokok yaitu pertama, analisis butir menurut teori tes klasik dan teori respons butir dengan ukuran sampel yang telah ditentukan dan kedua, menentukan besarnya kesalahan pengukuran (SEM). Analisis butir meliputi kegiatan estimasi parameter butir dan parameter kemampuan yang dilakukan dengan menggunakan program Bilog versi 3.07 dengan menggunakan model logistik tiga parameter. Analisis butir menurut teori tes klasik dilakukan dengan program Bilog versi 3.07 fase pertama dan menurut teori respons butir dilakukan dengan program Bilog versi 3.07 fase kedua. Estimasi parameter kemampuan diperoleh dengan program Bilog versi 5

3.07 fase ketiga. Besarnya harga indeks reliabilitas dihitung dengan program SPSS versi 10.0 dan harga fungsi informasi tes dihitung dengan menggunakan program EXCEL 2000. Hasil Penelitian dan Pembahasan Berdasarkan hasil analisis butir menurut teori tes klasik yang dilakukan dengan bantuan program Bilog versi 3.07 fase pertama menunjukkan bahwa dari 40 butir soal yang dianalisis, untuk kategori ukuran sampel besar dan kecil masing-masing memberikan hasil yang bervariasi. Untuk ukuran sampel besar menunjukkan bahwa pada ukuran sampel 600, ada 31 butir baik dan indeks reliabilitasnya 0,7732, pada ukuran sampel 750, ada 31 butir baik dan indeks reliabilitasnya 0,6341, dan pada ukuran sampel 1000, ada 29 butir baik dan indeks reliabilitasnya 0,6945. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100, ada 33 butir baik dan indeks reliabilitasnya 0,8729, pada ukuran sampel 250, ada 34 butir baik dan indeks reliabilitasnya 0,8532, pada ukuran sampel 500, ada 32 butir baik dan indeks reliabilitasnya 0,8921. Berdasarkan hasil analisis butir menurut teori respons butir yang dilakukan dengan bantuan program Bilog versi 3.07 fase kedua menunjukkan bahwa dari 40 butir soal yang dianalisis, untuk kategori ukuran sampel besar dan kecil masing-masing juga memberikan hasil yang bervariasi. Untuk kategori ukuran sampel besar menunjukkan bahwa pada ukuran sampel 600, ada 33 butir baik dan fungsi informasinya 0,4237, pada ukuran sampel 750, ada 36 butir baik dan fungsi informasinya 0,5496, pada ukuran sampel 1000, ada 35 butir baik dan fungsi informasinya 0.5642. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100, ada 31 butir baik dan fungsi informasinya 0,5496, pada ukuran sampel 250, ada 34 butir baik dan fungsi informasinya 0,5496, pada ukuran sampel 500, ada 34 butir baik dan fungsi informasinya 0,4315. Besarnya kesalahan pengukuran menurut teori tes klasik menunjukkan bahwa untuk kategori ukuran sampel besar pada ukuran sampel 600 memiliki SEM 2,8672, pada ukuran sampel 750 memiliki SEM 2,9342, pada ukuran sampel 6

1000 memiliki SEM 3,2951. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100 memiliki SEM 2,6670, pada ukuran sampel 250 memiliki SEM 2,1342, dan pada ukuran sampel 500 memiliki SEM 2,3278. Menurut teori respons butir, untuk kategori ukuran sampel besar menunjukkan bahwa pada ukuran sampel 600 memiliki SEM 1,6479, pada ukuran sampel 750 memiliki SEM 1,1489, dan pada ukuran sampel 1000 memiliki SEM 1.3423. Untuk kategori ukuran sampel kecil menunjukkan bahwa pada ukuran sampel 100 memiliki SEM 1,6731, pada ukuran sampel 250 memiliki SEM 1,7349, dan pada ukuran sampel 500 memiliki SEM 1,9241. Menurut teori tes klasik suatu alat ukur berupa tes dikatakan baik apabila memiliki banyak butir yang termasuk dalam kategori baik, harga indeks reliabilitas tinggi, dan SEM yang kecil. Secara keseluruhan berdasarkan hasil analisis butir menurut teori tes klasik banyaknya butir baik yang lebih banyak, harga indeks reliabilitas yang lebih besar, dan SEM yang lebih kecil akan dicapai apabila menggunakan ukuran sampel kecil walaupun nilainya bervariasi untuk ukuran sampel masing-masing kategori. Menurut teori respons butir suatu alat ukur berupa tes dikatakan baik apabila memiliki banyak butir yang termasuk dalam kategori baik, harga fungsi informasi tes tinggi, dan SEM yang kecil. Berdasarkan hasil analisis di atas ternyata analisis butir menurut teori respons butir justru memberikan hasil yang berlawanan dengan teori tes klasik. Secara keseluruhan banyaknya butir baik yang lebih banyak, harga indeks reliabilitas yang lebih besar, dan SEM yang lebih kecil diperoleh jika menggunakan ukuran sampel besar walaupun nilainya bervariasi pada ukuran sampel masing-masing kategori. Dengan demikian dapat disimpulkan bahwa analisis butir menurut teori tes klasik akan akurat apabila menggunakan ukuran sampel kecil dan menurut teori respons butir akan akurat apabila menggunakan ukuran sampel besar. Secara keseluruhan SEM yang paling kecil diperoleh jika menggunakan teori respons butir. Walaupun kriteria untuk menentukan kategori ukuran sampel bersifat relatif namun hasil penelitian ini diharapkan dapat dijadikan acuan sesuai dengan jenis data yang digunakan. 7

Berkaitan dengan data yang digunakan, secara keseluruhan perangkat soal UAN SLTP mata Pelajaran Matematika ini termasuk dalam kategori perangkat soal yang baik dan dapat dipercaya. Hal ini ditunjukkan dengan banyaknya butir soal yang termasuk kategori baik dan layak dimasukkan ke dalam bank soal. Kualitas perangkat soal UAN SLTP yang baik ini diantaranya dapat disebabkan karena perangkat soal ini memang telah disiapkan secara matang oleh Pusat Penilaian Pendidikan. Perangkat soal yang akan diujikan telah disusun melalui penelaahan baik secara kualitatif maupun kuantitatif (Tim Sisjian,1997: 2). Simpulan Berdasarkan hasil penelitian dan pembahasan dapat diambil simpulan bahwa secara umum untuk analisis butir menurut teori tes klasik memberikan hasil berupa banyaknya butir baik yang lebih banyak, harga indeks reliabilitas yang lebih besar dan SEM yang lebih kecil pada ukuran sampel kategori kecil ( 500). Sebaliknya, analisis butir menurut teori respons butir memberikan hasil berupa berupa banyaknya butir baik yang lebih banyak, harga fungsi informasi tes yang lebih tinggi, dan SEM yang lebih kecil pada ukuran sampel kategori besar (>500). Secara keseluruhan SEM yang paling kecil diperoleh jika menggunakan teori respons butir. Dengan demikian, analisis butir menurut teori tes klasik akan akurat apabila menggunakan ukuran sampel kecil dan menurut teori respons butir akan akurat apabila menggunakan ukuran sampel besar. Saran Berdasarkan hasil penelitian diajukan saran-saran sebagai berikut: 1. Kepada penyusun dan pengembang suatu tes baik dalam skala lokal maupun nasional sebaiknya menggunakan soal-soal yang secara empiris terbukti berkualitas baik. 2. Pembuktian secara empiris terhadap kualitas suatu butir soal perlu lebih dikembangkan dan disosialisasikan oleh berbagai praktisi pendidikan misalnya dengan mengadakan berbagai pelatihan bagi guru-guru baik bidang studi Matematika maupun lainnya untuk dapat malakukan analisis empiris 8

terhadap perangkat soal yang digunakan baik menurut teori tes klasik maupun teori respons butir. 3. Untuk menganalisis butir dengan ukuran sampel besar seperti UAN sebaiknya menggunakan teori respons butir dan untuk keperluan tes di kelas dengan ukuran sampel kecil sebaiknya menggunakan teori tes klasik. 4. Perlu adanya penelitian lebih lanjut dengan menggunakan data berbeda untuk mengetahui konsistensi keakuratan hasil analisis butir menurut teori tes klasik dan teori respons butir ditinjau dari ukuran sampel. DAFTAR PUSTAKA Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Belmont, CA: Wadsworth, Inc. Anastasi, A. & Urbina, S. (1997). Psychological testing. Upper Saddle River, NJ: Prentice Hall. Crocker L. & Algina J. (1986). Introduction to Classical and Modern test Tyheory. New York: CBS college publishing. Ebel, Robert L. (1972). Essential of educational measurement and evaluating in education and psycology. New York: Holt, Rine hart, and Winston. Inc. Gronlund, N. E. (1976). Measurement and evaluating in teaching. New York: Macmillan Publishing Co. Hambleton, R.K. & Swaminathan H. (1985). Item response theory: principles and applications. Boston, MA: Kluwer Inc. Hambleton, R.K., Swaminathan H. & Rogers, H.J. (1991). Fundamental of item response theory. Newbury Park, CA: Sage Publication Inc. Hullin, C. L., et. al. (1983). Item response theory: Application to psychological measurement. Homewood, IL: Dow Jones Irwin Mardapi, Djemari. (1991). Konsep dasar teori respons butir: Perkembangan dalam pengukuran pendidikan. Cakarawala Pendidikan 3(X). 1-16.. Mardapi, Djemari. (1998). Analisis butir soal dengan teori tes klasik dan teori respons butir. Jurnal kependidikan. Edisi khusus Dies-tahun XXVIII. 9

Mardapi Djemari. (1999). Estimasi kesalahan pengukuran dalam bidang pendidikan dan implikasinya pada ujian nasional. Pidato pengukuhan Guru Besar. Universitas Negeri Yogyakarta. Mehrens, W. A. & Lehman, I. J. (1973). Measurement and evaluation in education and psycology. New York: Hold, Rinehart and Winston, Inc. Mislevy, R. J., & Bock, R. D. (1990). BILOG 3: Item analysis & test scoring with binary logistic models (Computer program). Mooresville, IN: Scientific Software, Inc. Mislevy, R.J., & Wingersky, M. S., & Sheehan, K. M. (1994). Dealing with uncertainty about item parameters: Expected response functions (Research Report RR-94-28-ONR). Princeton, NJ: Educational Testing service. Morris, L.L. & Fitz Gibbon. C. T. (1978). How to Measure Achievement. Los Angeles, CA: Sage Publication. Santoso, Singgih, (2000), Buku latihan SPSS statistik parametrik, Jakarta: PT elex Media Komputindo Kelompok Gramedia Suherman, E. et al. (2003). Strategi pembelajaran matematika kontemporer. Bandung: FMIPA UPI Suryabrata, S. (1987). Pengembangan tes hasil belajar. Jakarta: CV Rajawali. Tim Sisjian. (1997). Bank soal. Jakarta: Pusat Penelitian dan Pengembangan Sistem Pengujian. 10

11

12