PENGARUH SAMPLE SIZE (N) DAN TEST LENGTH (n) TERHADAP ITEM PARAMETER ESTIMATE DAN EXAM/NEE PARAMETER ESTIMATE, SUATU STUDI SIMULASI

dokumen-dokumen yang mirip
HASIL DAN PEMBAHASAN. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika

PERBEDAAN KETEPATAN ESTIMASI TINGKAT KESUKARAN BUTIR TES PILIHAN GANDA PADA PENSKORAN KOREKSI DAN KONVENSIONAL DENGAN PENERAPAN MODEL RASCH

ANALISIS ITEM DENGAN PENDEKATAN IRT

Analisis Dan Simulasi Dengan Program Win-Gen (Strategi Dalam Mengkonstruk Instrumen Soal)

: <Dr: SamsuCjfadi, M.Kpm

BAB I PENDAHULUAN 1.1 Latar Belakang Permasalahan

Aplikasi IRT dalam Analisis Aitem Tes Kognitif

TEORI RESPON ITEM DENGAN PENDEKATAN MODEL LOGISTIK SATU PARAMETER

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

Kata Kunci: Analisis Butir Tes, Teori respons butir, soal matematika

Modul ke: Teori Tes. Klasik vs Modern. Fakultas PSIKOLOGI. Mutiara Pertiwi, M.Psi. Program Studi PSIKOLOGI.

KESTABILAN ESTIMASI PARAMETER KEMAMPUAN PADA MODEL LOGISTIK ITEM RESPONSE THEORY DITINJAU DARI PANJANG TES

Keakuratan Hasil Analisis Butir Menurut Teori Tes Klasik dan Teori Respons Butir Ditinjau dari Ukuran Sampel

EFISIENSI DAN AKURASI COMPUTERIZED ADAPTIVE TESTING PADA SISTEM UJIAN AKHIR SEMESTER UNIVERSITAS TERBUKA

Jurnal Penelitian dan Evaluasi Pendidikan

RINGKASAN. Kata kunci: Teori Tes Klasik, Teori Respon Butir

PERSYARATAN ANALISIS INSTRUMEN SEBAGAI PRASYARAT KETEPATAN HASIL ANALISIS DALAM PENELITIAN PENDIDIKAN

PENGEMBANGAN DAN ANALISIS SOAL ULANGAN KENAIKAN KELAS KIMIA SMA KELAS X BERDASARKAN CLASSICAL TEST THEORY DAN ITEM RESPONSE THEORY

ABSTRAK.

ANALISIS DATA PENGUKURAN MENGGUNAKAN PROGRAM QUEST. Didik Setyawarno Pendidikan IPA FMIPA UNY Yogyakarta, 18 November 2016

STRATEGI PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK MENINGKATKAN KEAMANAN TES

ANALISIS HASIL TEST. Classical Theory Test. Tingkat Kesukaran(

Nur Hidayanto FBS Universitas Negeri Yogyakarta

KARAKTERISTIK SOAL UASBN MATA PELAJARAN BAHASA INDONESIA DI DAERAH ISTIMEWA YOGYAKARTA PADA TAHUN PELAJARAN 2008/2009

P - 16 ANALISIS KEMAMPUAN BERPIKIR KRITIS MATEMATIK SISWA DENGAN MENGGUNAKAN GRADED RESPONSE MODELS (GRM)

IDENTIFIKASI KECURANGAN PESERTA UJIAN MELALUI METODE PERSON FIT

Suhariyono, Sriyono, Nur Ngazizah

ANALISIS BUTIR TES OBJEKTIF UJIAN AKHIR SEMESTER MAHASISWA UNIVERSITAS TERBUKA BERDASARKAN TEORI TES MODERN

BAB III METODE PENELITIAN. Metode penelitian adalah cara yang digunakan oleh peneliti dalam

RELIABILITAS ORDINAL PADA METODE TEST-RETEST

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

METODE KALIBRASI DAN DESAIN TES BERDASARKAN TEORI RESPONS BUTIR (IRT) 2

KEBERFUNGSIAN BUTIR DIFERENSIAL PERANGKAT TES UJIAN AKHIR SEKOLAH BERSTANDAR NASIONAL (UASBN) MATA PELAJARAN MATEMATIKA DI KOTA KENDARI

BAB I PENDAHULUAN. Evaluasi merupakan salah satu bagian dari proses pembelajaran. Evaluasi itu

Partial Credit Model (PCM) dalam Penskoran Politomi pada Teori Respon Butir

Jurnal Materi dan Pembelajaran Fisika (JMPF)

METHOD OF SCORE EQUALITY AND SAMPLE SIZE

PENINGKATAN KOMPETENSI TENAGA PENDIDIK DALAM PENGEMBANGAN TES MENGGUNAKAN METODE EQUATING

SILABI. Pokok Bahasan Sub Pokok Bahasan dan Sasaran Belajar Cara Pengajaran. : memahami dan menjelaskan definisi pengukuran

THE ACCURACY OF MANTEL-HAENSZEL, SIBTEST, AND LOGISTIC REGRESSION METHODS IN DIFFERENTIAL ITEM FUNCTION DETECTION. Budiyono

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES BERDASARKAN TEORI RESPON BUTIR

AKURASI METODE CONCORDANCE BERDASARKAN PANJANG TES DAN UKURAN SAMPEL

BAB 1 PENDAHULUAN A. Latar Belakang

BAB IV ANALISIS DATA. penelitian dimaksudkan untuk mengetahui ada tidaknya pengaruh Bimbingan

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

PSIKOMETRI. Oleh: Prof. Dr. I Wayan Koyan, M.Pd. Pascasarjana Undiksha Singaraja

Heri Retnawati Pend. Matematika FMIPA UNY. Abstrak

Psikometri. Reliabilitas 1

ANALISIS DATA UJIAN NASIONAL MATEMATIKA BERDASARKAN PENSKORAN MODEL RASCH DAN MODEL PARTIAL CREDIT

DETECTION OF GRAIN INSTRUMEN SCOORING WITH CORRECT SCORE AND PUNISHMENT SCORE

RENCANA PELAKSANAAN PEMBELAJARAN

PSIKOMETRI. Pengantar Psikometri MODUL PERKULIAHAN. Fakultas Program Studi Tatap Muka Kode MK Disusun Oleh 01

PERBANDINGAN ESTIMASI KEMAMPUAN LATEN ANTARA METODE MAKSIMUM LIKELIHOOD DAN METODE BAYES

PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK PENINGKATAN KEAMANAN TES. Agus Santoso FMIPA Universitas Terbuka

HUBUNGAN MODEL PENSKORAN TERHADAP ESTIMASI SKOR SESUNGGUHNYA BERDASARKAN TEORI RESPONS BUTIR. Musmuliadi. LPMP NTB

BAB III METODE PENELITIAN

PENYETARAAN (EQUATING) SKOR BIOLOGI SMA BERDASARKAN HASIL UJIAN NASIONAL TAHUN 2010/2011

Ketidaktepatan Penggunaan Validitas Butir dan Koefisien Reliabilitas dalam Penelitian Pendidikan dan Psikologi

BAB I PENDAHULUAN A. LATAR BELAKANG Komparasi Estimasi Reliabilitas Pada Mata Pelajaran Sejarah Ditinjau Dari Homogenitas Dan Heterogenitas Kelompok

BAB IV ANALISIS DATA. Kebajikan Anak-Anak Yatim Kuching, Sarawak, Malaysia. sampel berpasangan. Prosedur Paired Samples Uji T digunakan untuk

PENINGKATAN KOMPETENSI CALON PENDIDIK KIMIA MELALUI ITEM RESPONSE THEORY: STRATEGI MENGHADAPI MASYARAKAT EKONOMI ASEAN

ANALISIS BUTIR SOAL DAN KEMAMPUAN BAHASA INDONESIA SISWA SMK DALAM UJIAN NASIONAL TAHUN 2011

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

Abstrak Pengembangan Bank Soal Matematika. Oleh : Heri Retnawati Jurdik Matematika FMIPA UNY Yogyakarta. Abstrak

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES BERDASARKAN TEORI RESPON BUTIR

BAB III METODE PENELITIAN. Surakhmad (Andrianto, 2011: 29) mengungkapkan ciri-ciri metode korelasional, yaitu:

Psikometri. Aplikasi uji Reliabilitas dan. Validitas

Perbandingan Nilai Ujian Nasional dan Ujian Sekolah Mata Pelajaran Matematika SMA Program IPA Tahun Pelajaran 2010/2011

Skripsi disusun sebagai salah satu syarat untuk memperoleh gelar Sarjana Pendidikan Program Studi Pendidikan Biologi. oleh Mahanani

Perbandingan Penskoran Dikotomi dan Politomi dalam Teori Respon Butir untuk Pengembangan Bank Soal Matakuliah Matematika Dasar

III. METODOLOGI PENELITIAN. dan verifikatif. Metode deskriptif adalah studi untuk menentukan fakta dengan

Implementasi Teori Responsi Butir (Item Response Theory) pada Penilaian Hasil Belajar Akhir di Sekolah

Laporan Penelitian. Analisis Kualitas Butir Soal Mata Kuliah Membaca 2 (PBIN4329)

Implementasi Teori Responsi Butir (Item Response Theory) Pada Penilaian Hasil Belajar Akhir di Sekolah

PENAKSIRAN PARAMETER REGRESI LINIER DENGAN METODE BOOTSTRAP MENGGUNAKAN DATA BERDISTRIBUSI NORMAL DAN UNIFORM

Jurnal Pedagogika dan Dinamika Pendidikan

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES. Saifuddin Azwar Universitas Gadjah Mada

PERBANDINGAN METODE PENYETARAAN SKOR TES MENGGUNAKAN BUTIR BERSAMA DAN TANPA BUTIR BERSAMA

PENGANTAR TEORI TES KLASIK (TTK)*)

Pendeteksian Bias Tes dan Butir Perangkat Soal Matematika Ujian Nasional SLTP Berdasarkan Teori Respons-Butir ABSTRAK

ANALISIS BUTIR SOAL DENGAN TEORI TES KLASIK: SEBUAH PENGANTAR. Oleh: Djunaidi Lababa*

PENYETARAAN VERTIKAL MODEL KREDIT PARSIAL SOAL MATEMATIKA SMP. Sugeng Universitas Mulawarman

Pengantar Psikodiagnostik

EFEK SELEKSI AITEM BERDASAR DAYA DISKRIMINASI TERHADAP RELIABILITAS SKOR TES

PROGRAM QUEST SALAH SATU CARA MENINGKATKAN VALIDITAS INTERNAL PENELITIAN BAHASA INDONESIA

Panduan Penggunaan AnBuso 2015

PERBANDINGAN KEEFEKTIFAN BENTUK TES URAIAN DAN TESTLET DENGAN PENERAPAN GRADED RESPONSE MODEL (GRM) Oleh Purwo Susongko Abstrak Penelitian ini

ANALISIS BUTIR SOAL ISMUBA (AL-ISLAM, KEMUHAMMADIYAHAN DAN BAHASA ARAB) KELAS IV SD MUHAMMADIYAH 5

ESTIMASI KESALAHAN PENGUKURAN PERANGKAT SOAL UJI COBA UJIAN NASIONAL MATA PELAJARAN EKONOMI SMA DI KABUPATEN BANJARNEGARA

PENSKORAN POLITOMI DALAM TEORI RESPON BUTIR MENGGUNAKAN GRADED RESPONSE MODEL (GRM) Kata Kunci: Item Respon Teori (IRT), Graded Response Model (GRM)

THE ACCURACY OF THE FIXED PARAMETER CALIBRATION METHOD: STUDY OF MATHEMATICS NATIONAL EXAMINATION TEST

BAB III METODE PENELITIAN

EFEK PEMUSATAN DATA TERHADAP PARAMETER ITEM BERBASIS CLASICAL TEST THEORY (CTT)

Statistika Psikologi 2

DIFFERENTIAL ITEM FUNCTIONING (KEBERBEDAAN FUNGSI BUTIR)

KRITERIA EMPIRIK DALAM MENENTUKAN UKURAN SAMPEL PADA PENGUJIAN HIPOTESIS STATISTIKA DAN ANALISIS BUTIR

ANALISIS BUTIR SOAL A. PENDAHULUAN

BAB IV KORELASI ANTARA PEMAHAMAN PESERTA DIDIK TENTANG TATA TERTIB SEKOLAH DENGAN KEDISIPLINAN PESERTA DIDIK DI MA YIC BANDAR BATANG

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

ANALISIS BUTIR SOAL DENGAN ANBUSO Oleh: Ali Muhson

Transkripsi:

PENGARUH SAMPLE SIZE (N) DAN TEST LENGTH (n) TERHADAP ITEM PARAMETER ESTIMATE DAN EXAM/NEE PARAMETER ESTIMATE, SUATU STUDI SIMULASI R. BUDIARTI 1 Abstrak Studi yang mempelajari masalah pengukuran secara umum di bidang pendidikan dan mempelajari metode untuk menyelesaikannya, telah berkembang menjadi disiplin ilmu khusus yang dikenal dengan test theory. Test theory menyediakan kerangka kerja umum untuk melihat proses pembentukan instrumen tes (item lest). Analisis item dapat dilakukan dengan pendekatan tes teori k.jasik (Classical Test Theory atau CTT) dan teori tes modern yang dikenal dengan Item Respons Theory (IR1). Ada beberapa model respon item (item response model), yang berbeda banyaknya parameter dalam model. Semua model /RT mengandung satu atau lebih parameter item dan satu atau lebih parameter examinee. Pada tulisan ini difokuskan pada model respon item dengan satu parameter e.xaminee dengan dua parameter item. Parameter-parameter ini tidak diketahui, untuk itu perlu diduga. Agar hasil dugaan relatif stabil dan akurat, rnaka diperlukan sample si:e yang cukup. Tujuan dari paper ini adalah (I) menginvestigasi pengaruh sample size (N) terhadap kestabilan item parameter estimate. (2) menginvestigasi pengaruh test length (11) terhadap kestabilan examinee parameter estimate. Kestabilan dugaan parameter item (a dan b) dipengaruhi oleh sample size, dan kestabilan parameter examinee ( 8) dipengaruhi oleh ukuran tesl length. Semakin besar sample size, maka pendugaan parameter item makin stabil, sedangkan semakin besar ukuran test length maka makin stabil dugaan parameter item. PENDAHULUAN Studi yang mempelajari masalah pengukuran secara umum di bidang pendidikan dan bidang psikologi dan mempelajari metode untuk menyelesaikannya, telah bcrkembang menjadi disiplin ilmu khusus yang dikenal dengan test theory. Metode yang dipelajari dalam test theory meliputi ( 1) metode untuk menduga sejauh mana masalah ini mempengaruhi pengukuran yang diambil dalam situasi tertentu, (2) merumuskan metode untuk mengatasi atau meminimumkan masalah ini (Crocker dan Algina, 1986). Test theo1)' menyediakan kerangka kerja umum untuk melihat proses pembentukan instrumen tes (item test). Analisis item dapat dilakukan dengan pendekatan tes teori klasik 'Departemen Matcmatika. Fakultas llmu Pengetahuan Alam, Jalan Meranti Kampus IPB Dramaga Bogor, 16680.

, ' 26 R. BUDIARTI (Classical Test Theory atau CTI) dan teori tes modern yang dikenal dengan Item Respons Theory (f Rn. Item Respons Theory (!Rn berlandaskan pada dua postulat dasar yaitu (I) kinerja dari peserta ujian (examinee performance) pada test item dapat diprediksi (atau dapat diterangkan) melalui himpunan faktor-faktor disebut 'kemampuan' (trait, latent trait, atau ability), dan (2) hubungan antara kinerja item peserta ujian (examinees' item) dengan himpunan dari kemampuan yang berlandaskan pada kinerja item dapat digambarkan oleh fungsi monoton naik yang disebut item characteristic function atau item characten"stic curve (ICC). Peserta ujian dengan nilai kemampuan yang besar berarti bahwa peserta tersebut mempunyai peluang besar untuk dapat menjawab item dengan benar, sebaliknya peserta ujian dengan nilai kemampuan yang kecil berarti bahwa peserta tersebut mempunyai peluang kecil untuk dapat menjawab item dengan benar. Item characteristic function merupakan fungsi monoton naik, artinya jika tingkat kemampuan peserta ujian meningkat maka peluang menjawab item dengan benar juga meningkat. Ada beberapa model respon item (item response model), yang berbeda bentuk matematika dari item characteristic function dan berbeda banyaknya parameter dalam model. Semua model /RT mengandung satu atau lebih parameter item clan satu atau lebih parameter examinee. Pada tulisan ini difokuskan pada model respon item dengan satu parameter examinee dengan dua parameter item. Parameter-parameter ini tidak diketahui, untuk itu perlu diduga. Agar hasil dugaan relatif stabil dan akurat, maka diperlukan sample size yang cukup. Pertanyaan tentang kecukupan sample size (banyaknya examinee) sering muncul. Pcrtanyaan ini muncul pada diskusi sejumlah topik, termasuk diskusi tentang apakah tersedia literatur yang berkaitan dengan rekomendasi mengenai sample size. Menurut Crocker dan Algina ( 1986), bahwa tidak ada aturan mutlak mengenai sample size minimum yang digunakan dalam studi analisis item. Crocker dan Algina juga menyatakan bahwa sample size yang dibutuhkan tergantung pada pemilihan model tertentu. Menurut Xing dan Hambleton (2002) bahwa secara umum. makin panjang test length (n) mcnghasilkan reliabilitas tinggi. Kualitas item yang bagus akan meningkatkan reliabilitas. sedangkan kualitas item yang buruk akan mengurangi reliabilitas. Pertanyaan penting selanjutnya adalah seberapa dekat hubungan antara tme scores (parameter examinee atau parameter item) dan observed scores? lndeks hubungan ini adalah koefisien korelasi antar dua variabel tersebut. Koefisien korelasi yang menunjukkan derajat hubungan antara true scores dan observed scores dikenal dengan indeks reliabilitas (reliability index), dan koefisien korelasi ini disebut juga dengan koefisien stabilitas (coefficient Q( stability), (Crocker dan Algina, 1986). Semakin tinggi indeks reliabilitas maka observed scores semakin mirip dengan tnte scores, dengan kata lain, nilai dugaan semakin stabil mendekati nilai parameter yang sebenarnya. Jadi permasalahannya adalah bagaimanakah pengaruh sample size (N), test length (n) dan model respon item terhadap dugaan parameter examinee (examinee

JMA, VOL. 12, NO. l, JULI 2013, 25-36 27 parameter estimate) dan dugaan parameter item (item parameter estimate). Berdasarkan permasalahan ini, rnaka tujuan dari paper ini adalah ( l) menginvestigasi pengaruh sample size (N) terhadap kestabilan item parameter estimate, (2) menginvestigasi pengaruh test length (n) terhadap kestabilan examinee parameter estimate. METODE Distribusi Latent Trait (Sebaran Parameter Kemampuan/Ability) Seperti dituliskan pada judul paper ini adalah suatu studi simulasi, ditentukan simulasi sampel latent trait ( B ) berasal populasi nonnal baku ( B- N(O, J) ), seperti yang dilakukan Linn, Levine, Hastings, dan Wadrop ( 1981 ). Berikut ini dituliskan beberapa definisi yang dibutuhkan untuk pembahasan lebih lanjut. Item Response Model Item characteristic function adalah ekspresi matematika yang menghubungkan antara peluang menjawab benar item, untuk mengukur kemampuan peserta tes (examinee), dan karakteristik item. Sementara itu ada tak terhingga banyaknya model IRT, hanya beberapa yang digunakan. Asurnsi yang inendasari semua model IRT adalah hanya ada satu parameter kemampuan ( 8), sehingga seringkali disebut model IRT unidimensional. Perbcdaan utama antar model IRT unidimensional adalah banyaknya parameter yang digunakan untuk menggambarkan item-item. Tiga model lrt unidimensional yang paling dikenal adalah model logistik satu-parametcr, dua-parameter dan tiga-parameter. Modelmodel ini sesuai untuk data respon item dikotomus (Hambleton et. al., t 991 ). Model Logistik satu-parameter (model IPL) Model logistik satu-parameter (model l PL) adalah satu dari model IRT yang paling banyak digunakan. Model I PL sering juga disebut model Rasch (Rasch, 1960). Item characteristic curve untuk model logistik satu-parameter diberikan oleh persamaan berikut : dengan P, ( B) b, n eco- h, ) P;(B)= _,,, ;i=l,2,... n 18 I +e peluang examinee dengan kemampuan (} dapat mcnjawab item ke-i dengan benar parameter tingkat kesulitan item ke-i banyaknya item dalam suatu tes

28 R. BUDIARTI e : bilangan transendental yaitu 2. 718. Ketika nilai kemampuan ( 8) suatu grup e.xaminee ditransfonnasi sehingga rata-ratanya sama dengan 0 dan standar deviasinya sama dengan I, nilai-nilai b; cenderung bervariasi diantara -2 dan 2. Nilai b; yang dekat dengan -2 berarti bahwa item sangat mudah, sebaliknya jika nilai b, dekat dengan 2 berarti bahwa item sangat sulit bagi grup e.xaminee tersebut. Asumsi yang mendasari model I PL (selain unidimensional) adalah tingkat kesulitan item merupakan satu-satunya karakter item yang mempengaruhi kinerja examinee (examinee petfonnance). Hal ini berarti bahwa semua item mempunyai tingkat pembeda yang sama dan ICC mempunyai lower asymptote bernilai 0 (artinya bahwa peluang examinee memiliki tingkat kemampuan sangat rendah mendekati 0). Model Logistik dua-parameter (model 2PL) Lord ( 1952) adalah orang pertarna yang memkonstruksi model respon item dua-parameter yang berdasarkan pada sebaran normal kumulatif (normal ogive). Birnbaum ( 1968) menyubstitusi model logistik dua-parameter (model 2PL) dari fungsi ogive normal dua-parameter sebagai bentuk fungsi karakteristik item. Fungsi logistik memiliki keuntungan dalam praktek dibandingkan dengan fungsi ogive normal, karena fungsi ogive mengadung bentuk integral. Item characteristic curve untuk model logistik dua-parameter ditemukan oleh Birmbau~ yang diberikan oleh persamaan berikut : e " <tj-b.1 P,(8) = Du<U- b> ;i=l,2,...,n 1 +e I ' dengan P,(O) b, II e D a, peluang e.xaminee dengan kemampuan 8 dapat menjawab item ke-i dengan benar parameter tingkat kesulitan item ke-i banyaknya item dalam suatu tes bilangan transendental yaitu 2. 718. faktor skala sehingga membuat fungsi logistik menjadi sedekat mungkin dengan fungsi ogive normal (D = 1.7) parameter pembeda item ke-i Secara teori, parameter pembeda ( a, ) didefin is ikan pada interva I ( -«>, oo). Item-item pembeda bemilai negatif dibuang dari tes kcmampuan, berarti ada yang salah dari item-item tersebut karena peluang menjawab benar turun saat kemampuan examinee naik. Juga. tidak umum nilai a, mencapai lebih besar dari 2.

JMA, VOL. 12, NO.l, JULI 2013, 25-36 29 Umumnya, nilai parameter pembeda a; berkisar pada interval (0,2), (Hambleton et al, 1991 ). Seperti model I PL, asumsi yang mendasari model 2PL (selain unidimensional) adalah tingkat kesulitan item dan tingkat pembeda merupakan karakter item yang mempengaruhi kinerja examinee (examinee performance). Hal ini berarti bahwa semua item mempunyai ICC dengan lower asymptote bemilai 0 (artinya bahwa peluang examinee merniliki tingkat kemampuan sangat rendah mendekati 0). Model Logistik tiga-parameter (model 3PL) Ekspresi matematik untuk model logistik tiga-parameter diberikan oleh persamaan berikut : e0a,<o-1>, > Pi(B)=c,.+(t-c 1 ) Du<B-b) ;i=l,2,...,n 1 +e ' dengan P.( B) b, n e D I peluang examinee dengan kemampuan B dapat menjawab item ke-i dengan benar parameter tingkat kesulitan item ke-i banyaknya item dalam suatu tes bilangan transendental yaitu 2. 718. faktor skala sehingga membuat fungsi logistik menjadi sedekat mungkin dengan fungsi ogive nonnal (D = l. 7) parameter pembeda item ke-i parameter menebak (guessing) item ke-i Parameter menebak ( c,.) disebut juga dengan parameter pseudo-chance-level. Parameter c,. menetapkan non:ero lower asymptote pada kurva karakteristik item dan merepresentasikan peluang examinee dengan kemampuan rendah menjawab item dengan benar (Hambleton et al, 1991 ). Sample Size Kecukupan sample size (N) menjadi topik perdebatan, berikut ini beberapa literatur yang merekomendasikan pemilihan sample size. Menurut Crocker dan Algina ( 1986), secara umum parameter item dapat diduga dengan relatif stabil untuk sampel sebanyak 200 examinee. Berdasarkan rule-of-thumb (Nunnally, 1967) besarnya sample si::e adalah 5 sampai 10 kali banyaknya item. Misalkan suatu tes terdiri dari 20 item, maka minimal size sample sebanyak I 00 examinee. Crocker dan Algina ( 1986) merekomendasikan bahwa sample size yang dibutuhkan untuk pendugaan parameter berdasarkan teori respon item bervariasi antara 200 sampai dengan 1000 subjek. Jika digunakan model 3PL. Lord ( 1968) merekomendasikan banyaknya item n 2! 50 dan sample

30 R. BUDIARTI size sebesar N ~ 1000. Banyak peneliti telah mereferensikan seperti Lord ( 1968) dan Hulin et al ( 1982) bahwa sample size yang direkomendasikan minimal I 000 examinee untuk kalibrasi model 3PL. Berdasarkan studi sebelumnya (Hulin et al, 1982) dinyatakan bahwa banyaknya item n = 50 clan sample size N = 1000 sudah dianggap cukup besar untuk mendapatkan pendugaan parameter item yang akurat, ketika asumsi unidimensional dipenuhi. Ukuran Kestabilan Dugaan Ketika peneliti memberikan suatu tes, mereka hanya mengetahui observed score. Pertanyaan penting adalah seberapa dekat hubungan antara true score (examinees' score) dengan observed score? Satu indeks hubungan ini adalah korelasi antara kedua variabel tersebut. Koefisien korelasi yang mengekspresikan tingkat hubungan antara true dan observed score pada suatu tes dikenal sebagai reliability index. Mengingat kembali examinee 's observed score diekspresikan sebagai berikut : X =T+E Dan dalam deviation score, ditulis x=t+e Ketika menggunakan deviation score, reliability index dapat diekspresikan sebagai berikut : dengan N sample size simpangan baku observed score (nilai dugaan) simpangan baku tme score (nilai parameter) Mcnurut Crocker dan Algina ( 1986), koefisicn korelasi ini dikenal juga sebagai coefficient of stability. Oleh karena itu, koetisien korelasi di atas dapat digunakan sebagai ukuran kestabilan dari dugaan suatu parameter. Se lain menggunakan koefisien korelasi, Lord dan Novick ( 1968) menyatakan bahwa ukuran kestabilan dapat juga menggunakan root mean squared differences (RMSD). RMSD untuk parameter a, b. c dan parameter 8 ditulis:

JMA, VOL. 12, N0.1, JULI 2013, 25-36 31 I 1 " 2 RMSD(a) = - L(a, -a, ) \ n i=i I " i RMSD(b) = - L(bi -bi) \ n i=i 11 n, RMSD(c) =\-;;fr( ci -c; r l ft A 2 RMSD(B) = \ -;; fr (Bi - fl; ) Berdasarkan rumus RMSD di atas, dapat diinterpretasikan bahwa jika selisih antara true score (nilai parameter) dan observed score (nilai dugaan) kecil, artinya dugaannya akurat, maka nilai RMSD nya kecil juga. Untuk menjawab tujuan ( 1) dan (2) pada paper ini, digunakan model respon item dua-parameter (model 2PL). Pada model ini, peluang examinee memberikan respon item ke-i dengan latent trait ( () ) unidimensional tertentu, seperti persamaan model 2PL yang ditulis sebelumnya di atas. Berdasarkan alasan-alasan yang dikemukakan sebelumnya, simulasi parameter a, ditentukan berdistribusi uniform (0.4. 2) dan parameter b; ditentukan berdistribusi uniform (-2, 2). Modelmodel lrt unidimensional, tennasuk model 2PL, sesuai untuk data respon item dikotomus (Hambleton et. al., 1991 ), sehingga dalam simulasi ditentukan respon item dikotomus. Test Length (n) dan Sample Size (N) Berdasarkan alasan secara teori maupun berdasarkan penelitian sebelumnya yang telah dikemukakan, maka ditentukan n dan N untuk masing-masing tujuan sebagai berikut : (I) Untuk menjawab tujuan ( 1) dan mengacu pada rule-of-thumb, ditentukan n = 40 dan N = 200, 400, dan l 000. (2) Untuk menjawab tujuan (2) dan mengacu pada rule-of-thumb. ditentukan N = 1000 dan /1 = 20, 50, dan 100. Ditentukan replikasi/ulangan sebanyak 1 O kali, dan untuk mengukur kestabilan dugaan parameter digunakan indeks reliabilitas dan RMSD (root mean squared d~flerences).

32 R. BUDIARTI PEMBAHASAN Peogaruh sample size (N) terhadap kestabilao item parameter estimate Untuk mengetahui pengaruh sample size (N) terhadap kestabilan dugaan parameter item a dan b pada model logistik dua-parameter (2PL), ditetapkan banyaknya item (test length) n = 40 dan sample size dibuat bervariasi yaitu N = 200, 400, I 000, masing-masing variasi ini direplikasi sebanyak l 0 kali. Sudah disebutkan sebelumnya, untuk melihat kestabilan dugaan parameter item a dan b digunakan koefisien korelasi dan RMSD (root mean squared differences) atau RMSE (root mean squared error). Hasil korelasi dan RMSD dari perameter item a dan b dapat dilihat pada Tabel I berikut dan diperjelas dengan menampilkannya dalam bentuk grafik. TABEL I Hasil korelasi dan RMSD parameter item a dan b Korelasi parameter a Korelasi parameter b RMSD parameter a RMSD parameter b Replikasi 200 400 1000 200 400 1000 200 400 1000 200 400 1000 I 0.793 0.881 0.933 0.974 0.975 0.976 0.521 0.436 0.307 0.477 0.430 0.395 2 0.833 0.91 I 0.940 0.954 0.975 0.979 0.469 0.377 0.294 0.578 0.431 0.378 3 0.770 0.784 0.918 0.955 0.967 0.979 0.447 0.421 0.301 0.535 0.412 0.357 4 0.818 0.858 0.937 0.973 0.955 0.972 0.443 0.426 0.330 0.444 0.474 0.400 5 0.776 0.881 0.955 0.973 0.972 0.976 0.410 0.411 0.277 0.459 0.391 0.396 6 0.710 0.841 0.886 0.947 0.959 0.979 0.406 0.406 0.320 0.521 0.463 0.368 7 0.855 0.925 0.918 0.944 0.974 0.981 0.442 0.342 0.322 0.613 0.446 0.373 8 0.814 0.835 0.945 0.966 0.959 0.981 0.415 0.451 0.323 0.544 0.471 0.367 9 0.787 0.877 0.922 0.956 0.977 0.978 0.508 0.497 0.325 0.510 0.404 0.384 10 0.844 0.761 0.940 0.975 0.959 0.965 0.507 0.461 0.316 0.404 0.446 0.442 0,95 ';; Qi "' 0,85,.,... 0.. ~ 0,8 c 0.75 ------ 0,7 --- 200 400 sample size 1000

JMA, VOL. 12, NO.I, JULI 2013, 25-36 33 0,985 0,98 -!---------- --,.,...-- ~ 0,975 +---------.,,,,, _ "' 1! 0,97 +--------oll!f------- 0 ~ 0,965.._ i ----------- ~ c: o,96 +----'------------ o,955 0,95 200 400 sample size 1000 Gambar l. Korelasi antara true score a dengan dugaan a (gambar atas) clan korelasi antara tnie score b dengan dugaan b (gambar bawah) 0,45 0,4 -l--~===~~----- 0,35 +------------ - - - 0,3 0,25 +---------------- 0,2 0,15 0,1 ------------ 0,05 -f---------------- 0 +-----~----~-- ---. 200 400 1000 I o,6 i------------ : : t. ~~~ 1... I ~ l o,3 ~----------! 0,2 ~------ ' I 0,1 -r--- ----- 0 t- ----~ 200 400 1000., Gambar 2. RMSD parameter item a (gambar atas) dan RMSD parameter item b (gambar bawah)

34 R. BUDIARTI Tabel l yang diperjelas dengan Gambar I clan Gambar 2 di atas memperlihatkan bahwa semakin besar sample size (N) maka nilai korelasi semakin besar juga, sedangkan nilai RMSD semakin kecil. Jadi sample size (N) berpengaruh terhadap kestabilan dugaan parameter, yaitu semakin besar sample size (N) maka dugaan parameter semakin stabil. Pengaruh test length (n) terhadap kestabilan examinee parameter estimate Untuk mengetahui pengaruh test le11gth (n) terhadap kestabilan dugaan parameter examinee ( B) pada model logistik dua-parameter (2PL), ditetapkan banyaknya examinee (sample size) N = 1000 dan test length dibuat bervariasi yaitu n = 20, 50, J 00, masing-masing variasi ini direplikasi sebanyak 10 kali. Sudah disebutkan sebelumnya, untuk melihat kestabilan dugaan parameter examinee ( B ) digunakan koefisien korelasi dan RMSD (root mean squared differences) atau RMSE (root mean squared error). Hasil korelasi dan RMSD dari perameter exami11ee dapat dilihat pada Tabel 2 berikut dan diperjelas dengan menampilkannya dalam bentuk grafik. Replikasi I 2 3 4 5 6 7 8 9 10 TABEL2 Hasil korelasi dan RMSD parameter examinee ( (}) Korclasi RMSD n = 20 n = 50 n = 100 n = 20 n = 50 0.893 0.951 0.963 0.463 0.320 0.892 0.949 0.96 0.466 0.326 0.892 0.946 0.963 0.465 0.334 0.895 0.945 0.962 0.461 0.336 0.889 0.946 0.960 0.472 0.336 0.897 0.950 0.962 0.456 0.322 0.896 0.949 0.962 0.457 0.324 0.890 0.952 0.962 0.470 0.317 0.888 0.950 0.962 0.473 0.323 0.890 0.952 0.960 0.470 0.317 11= JOO 0.278 0.291 0.278 0.285 0.293 0.282 0.285 0.282 0.285 0.290 I 0,98 0,96 +-----------=_..... ;- 0,94 -+------- 0,92 -l---- 1 0,9 -----~--'- ---------- 0,88,~------ ------- 0,86 1 ----------------- 0,84 - ---.,.- - I I 20 so 100 I J

JMA, VOL. 12, NO.l, JULI 2013, 25-36 35 0,5 0,4 "- ~ 0,3... 0,2 0,1 0 20 so 100 Gambar 3. Korelasi parameter examinee ( 8) (gambar atas) dan examinee ( 0) (gambar bawah) RMSD parameter Tabel 2 di atas yang diperjelas dengan Gambar 3 menunjukkan bahwa semakin besar test length (n) maka nilai korelasi semakin besar juga, sedangkan nilai RMSD semakin kecil. Nilai korelasi antara "true" parameter examinee ( 8) dengan nilai dugaannya hamper mendekati I pada n = 50 dan n = I 00. Hal ini berarti bahwa untuk keperluan membentuk instrumen tes dapat digunakan n = 50 at au n = I 00. Jika mempertimbangkan biaya, maka dapat digunakan n = 50. Jadi test length (11) berpengaruh terhadap kestabilan dugaan parameter examinee ( 0 ), yaitu semakin besar test length (n) maka dugaan parameter examinee ( 0 ) semakin stabil. SIM PU LAN Kestabilan dugaan parameter item (a dan b) dipengaruhi oleh sample size, dan kestabilan parameter examinee ( 0) dipengaruhi oleh ukuran test length. Scmakin besar sample size, maka pendugaan parameter item makin stabil, sedangkan semakin besar ukuran test length maka makin stabil dugaan parameter item. DAFTAR PUSTAKA [I) Crocker. L clan Algina. J. 1986. lntrod11ction to cla.uicul and modern tc.~t theory. IUnehart and Winston, Inc. Amcrika Scrikat. 121 Drasgow. F dan Parsons. CK. 1983. Application of unidimensional item response lhcory models to multidimensional data. Applied Psychological Measurement. Vol. 7 : No. 2. pp 189-199.

36 R. BUDIARTI [3] Hambleton, RK. Swaminathan, H clan Rogers, HJ. 1991. Fundamentals of item response theory. Sage Publication, California. [4] Hullin CL, Lissak RI, Drasgow F. 1982. Recovery of two- and three-parameter logistic item characteristic curve. A monte carlo study. Applied Psychological Measurement. Vol. 7 : No. 6, pp. 249-260. (5] Linn RL, Levine MV, Hastings CN, dan Wardrop JL. 1981. Item bias in a test of reading comprehension. Applied Psychological Measurement, 5, 159-173. [6] Lord FM. 1968. An analiysis of the verbal scholastic aptitude test using Bimbaum's threeparameter logistic model. Educational and Psychological Measurement. 28, 989-1020. [7] Lord FM dan Novick MR. 1968. Statistical theories of mental test scores. Reading MA : Addison-Wesley.