PEMILIHAN BUTIR SOAL PADA RANCANGAN TES ADAPTIF BERDASARKAN EFFICIENCY BALANCED INFORMATION

dokumen-dokumen yang mirip
STRATEGI PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK MENINGKATKAN KEAMANAN TES

EFISIENSI DAN AKURASI COMPUTERIZED ADAPTIVE TESTING PADA SISTEM UJIAN AKHIR SEMESTER UNIVERSITAS TERBUKA

PEMILIHAN BUTIR ALTERNATIF PADA TES ADAPTIF UNTUK PENINGKATAN KEAMANAN TES. Agus Santoso FMIPA Universitas Terbuka

PENGEMBANGAN TES ADAPTIF PADA SISTEM UJIAN ONLINE UNIVERSITAS TERBUKA

PERBEDAAN KETEPATAN ESTIMASI TINGKAT KESUKARAN BUTIR TES PILIHAN GANDA PADA PENSKORAN KOREKSI DAN KONVENSIONAL DENGAN PENERAPAN MODEL RASCH

COMPUTERIZED ADAPTIVE TESTING (CAT) SALAH SATU ALTERNATIF PENGGANTI PAPER BASED TEST (PBT)

ANALISIS BUTIR TES OBJEKTIF UJIAN AKHIR SEMESTER MAHASISWA UNIVERSITAS TERBUKA BERDASARKAN TEORI TES MODERN

Aplikasi IRT dalam Analisis Aitem Tes Kognitif

Analisis Dan Simulasi Dengan Program Win-Gen (Strategi Dalam Mengkonstruk Instrumen Soal)

HASIL DAN PEMBAHASAN. Tabel 2. Statistik skor mahasiswa UAS TPB IPB mata kuliah Fisika

ABSTRAK.

ADMINISTRASI UJIAN NASIONAL (UN) DENGAN MENGGUNAKAN MODEL COMPUTERIZED ADAPTIVE TESTING (CAT) *)

Abstrak Pengembangan Bank Soal Matematika. Oleh : Heri Retnawati Jurdik Matematika FMIPA UNY Yogyakarta. Abstrak

ANALISIS BUTIR SOAL PILIHAN GANDA UJIAN AKHIR SEMESTER MAHASISWA DI UNIVERSITAS TERBUKA DENGAN PENDEKATAN TEORI TES KLASIK

Keakuratan Hasil Analisis Butir Menurut Teori Tes Klasik dan Teori Respons Butir Ditinjau dari Ukuran Sampel

KESTABILAN ESTIMASI PARAMETER KEMAMPUAN PADA MODEL LOGISTIK ITEM RESPONSE THEORY DITINJAU DARI PANJANG TES

IDENTIFIKASI KECURANGAN PESERTA UJIAN MELALUI METODE PERSON FIT

Psikometri. Analisis Item 1

Computerized Adaptive Testing: Pemanfaatan Psikologis dari Komputer untuk Pengetesan Psikologis

Oleh: Oe : Yasfin Fajri

BAB III METODE PENELITIAN. Metode penelitian adalah cara yang digunakan oleh peneliti dalam

BAB I PENDAHULUAN. Tes adalah bentuk penilaian khusus yang umumnya terdiri dari seperangkat

TEORI RESPON ITEM DENGAN PENDEKATAN MODEL LOGISTIK SATU PARAMETER

THE ACCURACY OF MANTEL-HAENSZEL, SIBTEST, AND LOGISTIC REGRESSION METHODS IN DIFFERENTIAL ITEM FUNCTION DETECTION. Budiyono

AKURASI METODE CONCORDANCE BERDASARKAN PANJANG TES DAN UKURAN SAMPEL

Winarno Dosen Sekolah Tinggi Agama Islam (STAIN) Salatiga

PENYETARAAN (EQUATING) SKOR BIOLOGI SMA BERDASARKAN HASIL UJIAN NASIONAL TAHUN 2010/2011

P - 16 ANALISIS KEMAMPUAN BERPIKIR KRITIS MATEMATIK SISWA DENGAN MENGGUNAKAN GRADED RESPONSE MODELS (GRM)

PENERAPAN REGRESI LINIER MULTIVARIAT PADA DISTRIBUSI UJIAN NASIONAL 2014 (Pada Studi Kasus Nilai Ujian Nasional 2014 SMP Negeri 1 Sayung)

Psikometri Reliabilitas 2

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

PENGEMBANGAN DAN ANALISIS SOAL ULANGAN KENAIKAN KELAS KIMIA SMA KELAS X BERDASARKAN CLASSICAL TEST THEORY DAN ITEM RESPONSE THEORY

Team project 2017 Dony Pratidana S. Hum Bima Agus Setyawan S. IIP

RENCANA PELAKSANAAN PEMBELAJARAN

ESTIMASI PARAMETER UNTUK DISTRIBUSI HALF LOGISTIK. Jl. A. Yani Km. 36 Banjarbaru, Kalimantan Selatan

Statistika Psikologi 2

Non Linear Estimation and Maximum Likelihood Estimation

PERBANDINGAN REGRESI ROBUST PENDUGA MM DENGAN METODE RANDOM SAMPLE CONSENSUS DALAM MENANGANI PENCILAN

METODE KALIBRASI DAN DESAIN TES BERDASARKAN TEORI RESPONS BUTIR (IRT) 2

Kata Kunci: Analisis Butir Tes, Teori respons butir, soal matematika

WORKSHOP DIREKTOR DIKLAT

PROGRAM QUEST SALAH SATU CARA MENINGKATKAN VALIDITAS INTERNAL PENELITIAN BAHASA INDONESIA

SIMULASI INTENSITAS SENSOR DALAM PENDUGAAN PARAMATER DISTRIBUSI WEIBULL TERSENSOR KIRI. Abstract

BAB III METODE PENELITIAN. Metode penelitian yang digunakan pada penelitian ini adalah metode penelitian

PSIKOMETRI. Oleh: Prof. Dr. I Wayan Koyan, M.Pd. Pascasarjana Undiksha Singaraja

BAB 3 METODOLOGI PENELITIAN

Nur Hidayanto FBS Universitas Negeri Yogyakarta

PERBANDINGAN KEEFEKTIFAN BENTUK TES URAIAN DAN TESTLET DENGAN PENERAPAN GRADED RESPONSE MODEL (GRM)

Tingkat Efisiensi Metode Regresi Robust dalam Menaksir Koefisien Garis Regresi Jika Ragam Galat Tidak Homogen

Kata kunci: metode pohon segitiga keputusan, metode maximum likelihood

: <Dr: SamsuCjfadi, M.Kpm

RELIABILITAS ORDINAL PADA METODE TEST-RETEST

Pendekatan Regresi Logistik dalam Pendektesian DIF

Psikometri. Aplikasi uji Reliabilitas dan. Validitas

ANALISIS DATA UJIAN NASIONAL MATEMATIKA BERDASARKAN PENSKORAN MODEL RASCH DAN MODEL PARTIAL CREDIT

Psikometri. Reliabilitas 1

Psikometri Validitas 1

PENERAPAN ALGORITMA GENETIKA UNTUK PENENTUAN PENJADWALAN JOB SHOP SECARA MONTE CARLO

EQUATING THE COMBINED DICHOTOMOUS AND POLITOMOUS ITEM TEST MODEL IN AN ACHIEVEMENT TEST. Kartono

BAB I PENDAHULUAN 1.1 Latar Belakang dan Permasalahan

PERBANDINGAN PENYEKORAN MODEL RASCH DAN MODEL PARTIAL CREDIT PADA MATEMATIKA. Awal Isgiyanto FKIP Universitas Bengkulu

III METODE PENELITIAN. Penelitian ini merupakan penelitian dan pengembangan (Research and Development).

MODEL PENSKORAN PARTIAL CREDIT PADA BUTIR MULTIPLE TRUE-FALSE BIDANG FISIKA. Wasis

Jurnal Penelitian dan Evaluasi Pendidikan

PENGEMBANGAN SISTEM PENILAIAN HASIL BELAJAR MATA PELAJARAN MENGANALISIS RANGKAIAN LISTRIK BERBASIS COMPUTERIZED ADAPTIVE TESTING

ANALISIS BUTIR SOAL ISMUBA (AL-ISLAM, KEMUHAMMADIYAHAN DAN BAHASA ARAB) KELAS IV SD MUHAMMADIYAH 5

BAB IV PENUTUP. berkorelasi secara contemporaneous. Korelasi galat contemporaneous terjadi

Suhariyono, Sriyono, Nur Ngazizah

PENERAPAN BOOTSTRAP DALAM METODE MINIMUM COVARIANCE DETERMINANT (MCD) DAN LEAST MEDIAN OF SQUARES (LMS) PADA ANALISIS REGRESI LINIER BERGANDA

ESTIMATION METHODS ISSUES IN MULTILEVEL MODEL FOR HIERARCHICAL DATA ANALYSIS

PERBANDINGAN KEEFEKTIFAN BENTUK TES URAIAN DAN TESTLET DENGAN PENERAPAN GRADED RESPONSE MODEL (GRM) Oleh Purwo Susongko Abstrak Penelitian ini

BEBERAPA KRITERIA EMPIRIK PADA ANALISIS BUTIR. Oleh Dali S. Naga

PERBANDINGAN ESTIMASI KEMAMPUAN LATEN ANTARA METODE MAKSIMUM LIKELIHOOD DAN METODE BAYES

PENGARUH MIXED DISTRIBUTION PADA PENDEKATAN QUASI-LIKELIHOOD DALAM MODEL LINEAR 1)

1

KOMPARASI BEBERAPA METODE ESTIMASI KESALAHAN PENGUKURAN. Catharina Sri Wahyu Widayati. LPMP DIY

THE ACCURACY OF THE FIXED PARAMETER CALIBRATION METHOD: STUDY OF MATHEMATICS NATIONAL EXAMINATION TEST

Power Dari Uji Kenormalan Data

Psikometri NORMA 1. Arie Suciyana S., S.Si., M.Si. Modul ke: Fakultas Psikologi. Program Studi Psikologi.

SIMULASI DAMPAK MULTIKOLINEARITAS PADA KONDISI PENYIMPANGAN ASUMSI NORMALITAS

Pertemuan 10 STATISTIKA INDUSTRI 2. Multiple Linear Regression. Multiple Linear Regression. Multiple Linear Regression 19/04/2016

Estimasi Model Seemingly Unrelated Regression (SUR) dengan Metode Generalized Least Square (GLS)

PENILAIAN BERBASIS KOMPUTER (ITEM AND TEST ANALYSIS, ITEMAN) DEPARTEMEN PENDIDIKAN NASIONAL

ANALISIS ITEM DENGAN PENDEKATAN IRT

PENERAPAN STRATEGI PEMBELAJARAN KOOPERATIF TIPE STUDENT TEAM ACHIEVEMENT DIVISION

PENGARUH PENERAPAN STRATEGI PEMBELAJARAN AKTIF TIPE TRUE OR FALSE STATEMENT TERHADAP PEMAHAMAN KONSEP MATEMATIS SISWA KELAS VIII SMPN 26 PADANG

Dr. Winarno, S. Si, M. Pd*.

ESTIMASI KESALAHAN PENGUKURAN PERANGKAT SOAL UJI COBA UJIAN NASIONAL MATA PELAJARAN EKONOMI SMA DI KABUPATEN BANJARNEGARA

BAB 3 METODOLOGI PENELITIAN

PROSEDUR PENAKSIRAN PARAMETER MODEL MULTILEVEL MENGGUNAKAN TWO STAGE LEAST SQUARE DAN ITERATIVE GENERALIZED LEAST SQUARE

IMPLEMENTASI ASSAF TERHADAP CAPAIAN PEMAHAMAN KONSEP CAHAYA. Achmad Samsudin

Pelanggaran Asumsi Normalitas Model Multilevel Pada Galat Level yang Lebih Tinggi. Bertho Tantular 1)

Estimasi Hazard Rate Temporal Point Process

ANALISIS DATA PENGUKURAN MENGGUNAKAN PROGRAM QUEST. Didik Setyawarno Pendidikan IPA FMIPA UNY Yogyakarta, 18 November 2016

PERBANDINGAN METODE KEMUNGKINAN MAKSIMUM DAN BAYES DALAM MENAKSIR KEMAMPUAN PESERTA TES PADA RANCANGAN TES ADAPTIF ABSTRAK

SILABI. Pokok Bahasan Sub Pokok Bahasan dan Sasaran Belajar Cara Pengajaran. : memahami dan menjelaskan definisi pengukuran

ARTIKEL ILMIAH. Diajukan sebagai salah satu syarat untuk memperoleh gelar sarjana pendidikan (STRATA 1) SUSI SUSANTI NIM

THE POTENTIAL USE AND DEVELOPMENT OF COMPUTERIZED ADAPTIVE TESTING IN ORGANIZATIONAL AND INDUSTRIAL SETTING 1

MODEL PENGEMBANGAN BANK SOAL BERBASIS GURU DAN MUTU PENDIDIKAN

Analisis Tingkat Kesukaran dan Daya Pembeda Butir Soal Ujian Pelatihan Radiografi Tingkat 1 [Bagiyono] ISSN

Transkripsi:

PEMILIHAN BUTIR SOAL PADA RANCANGAN TES ADAPTIF BERDASARKAN EFFICIENCY BALANCED INFORMATION Agus Santoso (aguss@ut.ac.id) Jurusan Statistika FMIPA Universitas Terbuka ABSTRAK Salah satu metode pemilihan butir soal yang popular digunakan dalam rancangan tes adaptif adalah metode Informasi Maksimum. Melalui metode ini, butir soal yang memiliki informasi maksimum pada tingkat kemampuan tertentu akan dipilih dan diberikan kepada peserta tes. Namun kelemahan dari metode ini adalah kurang akurat dalam mengestimasi tingkat kemampuan peserta pada awal tes dan memiliki kecenderungan untuk memilih butir dengan nilai daya pembeda parameter butir yang tinggi dibandingkan butir dengan nilai parameter daya pembeda yang rendah, sehingga menimbulkan masalah pemeliharaan butir soal dalam bank soal. Karena itu dicari cara lain untuk mengatasi masalah tersebut. Penelitian ini bertujuan untuk mengetahui performa hasil estimasi dari penerapan metode Efficiency Balanced Information (EBI) pada rancangan tes adaptif. Penelitian ini dilakukan melalui studi simulasi dalam setting penyelenggaraan ujian akhir semester Universitas Terbuka. Bank soal untuk keperluan simulasi dibangkitkan berdasarkan model Item Response Theory 3 parameter. Sebanyak 900 butir soal dalam bank soal bangkitan dengan spesifikasi parameter butir yang ideal. Dua kriteria pemilihan butir soal yang disimulasikan yaitu Informasi Maksimum dan EBI Maksimum yang juga dirancang agar memenuhi keseimbangan isi. Hal ini agar menjamin bahwa algoritma yang dihasilkan sesuai dengan pembelajaran moduler yang diterapkan UT, artinya butir soal setiap modul secara proporsional terwakili dan sesuai kisi-kisi. Aturan pemberhentian tes menggunakan kesalahan baku estimasi (standard error of estimation=see) sebesar 0,3. Hasil penelitian menyimpulkan bahwa algoritma rancangan tes adaptif dengan kriteria EBI menghasilkan performa hasil estimasi kemampuan peserta yang lebih akurat dibandingkan kriteria Informasi Maksimum. Hal ini ditunjukkan oleh nilai bias dan simpangan baku pengukuran yang lebih kecil dibandingkan kriteria Informasi Maksimum. Kelebihan lain dari penerapan kriteria EBI Maksimum adalah kebermanfaatan bank soal lebih optimal karena butir-butir soal dengan tingkat daya beda rendah juga dimunculkan khususnya pada awal tes. Sedangkan kriteria Informasi Maksimum walaupun lebih efisien dari sisi panjang tes tetapi kurang optimal dalam memanfaatkan bank soal. Kata kunci: EBI, informasi maksimum, tes adaptif ABSTRACT One of the most popular item selection methods in the design of adaptive testing is Maximum Information Method. This method provides the items with the maximum information at a certain level of selecting ability. The lack of this method is rarely accurate in estimating the level of ability of the examinees at the beginning of the test and tends to select items with higher discrimination-parameter value than items with lower discriminationparameter. It creates problem in maintaining item bank. Therefore, another method should be found. The objective of the study is to determine the performance of the application of the estimation method Balanced Efficiency Information (EBI) on the design of an adaptive test.

Jurnal Pendidikan, Volume 15, Nomor 1, Maret 2014, 31-41 This research was carried out through a simulation study in the setting of organizing the Open University final exams. Item bank for the purposes of simulation models based on 3 parameters Item Response Theory was contructed a total of 900 items were generated base on the ideal parameter of the item specifications. Two selection criteria items were simulated, namely Information Maximum and EBI Maximum. Those two criteria were also designed to meet the content balancing. This is to ensure that the algorithm is appropriate with the applicable UT modular learning, meaning items of each module were proportionally represented and suited the blueprint. The tests will be stopped at when the standard error of estimate ( standard error of estimation = SEE ) is 0.3.The study summarized that the algorithm of EBI was more accurate than the Maximum Information criteria in estimating performance capabilities of participants. This is indicated by the value of the bias and the standard deviation of EBI is smaller than Maximum Information criteria s. Another advantage of the application of the EBI Maximum is optimally utilizing of the item bank. The items with low level of the discrimination-parameter will also be chosen at the begining of the test. The maximum information criterion is more efficient in terms of test length but less optimally of the item bank utilization. Keywords: adaptive test, maximum information, EBI Penerapan berbagai metode pemilihan butir soal dalam rancangan tes adaptif merupakan hal yang menarik untuk dikaji dan diteliti. Penelitian mengenai efektivitas dan efisiensi berbagai metode pemilihan butir soal dalam rancangan tes adaptif telah dilakukan sejak sistem tes adaptif ini diperkenalkan sekitar tahun 1980 an. Metode pemilihan butir yang paling popular dan sering digunakan adalah metode Informasi Maksimum. Berdasarkan metode ini butir soal yang memberikan informasi maksimum atau yang mengurangi kesalahan pengukuran pada tingkat kemampuan tertentu akan terpilih dan diberikan kepada peserta tes. Pada penyelenggaraan tes pilihan ganda yang butir soalnya dibangun melalui model item response theory (IRT) 3 parameter, pemilihan butir soal berdasarkan metode Informasi Maksimum akan memilih butir soal ke-i yang memaksimumkan fungsi berikut. 2 ˆ 2,89ai (1-c i ) I i ( j ) (1) ( c exp(1,702. a ( ˆ - b ) 1 exp( 1,702. a ( ˆ - b ) 2 i i j i dengan ai, bi, dan ci masing-masing adalah daya pembeda, tingkat kesukaran, dan faktor tebakan butir ke-i. Penerapan metode Informasi Maksimum akan menghasilkan penyelenggaraan tes yang efektif karena menghasilkan informasi tes paling maksimum untuk setiap individu peserta tes. Namun demikian, penerapan metode ini sering kurang akurat dalam mengestimasi tingkat kemampuan peserta pada awal tes serta kurang optimal dalam memanfaatkan bank soal. Untuk mengatasi kelemahan metode Informasi Maksimum, beberapa metode pemilihan butir soal telah dikembangkan diantaranya adalah metode Efficiency Balanced Information = EBI (Han, 2012). Berdasarkan metode EBI Maksimum, butir soal yang memiliki nilai EBI terbesar akan dipilih dan diberikan kepada peserta tes. j j EBI 1 i j 2 ( ˆ ) 1 I d * I j 2 i ( ) (2) j i ( i ) i j i 32

Santoso, Pemilihan Butir Soal Pada Rancangan Tes Adaptif dengan 1 Da 1 ln 1 8c * i i bi i 2 * dan I i ( i ) fungsi informasi butir pada saat tingkat kemampuan (theta) yang disesuaikan dengan tingkat kesukaran butir. Dalam prosedur EBI, estimasi tingkat kemampuan peserta akan disesuaikan dengan tingkat kesukaran butir dan di tetapkan pada ± 2 atau 2 standard error of estimation (SEE) dari estimasi kemampuan setelah butir ke-j diberikan kepada peserta tes. Artikel ini membahas performa hasil estimasi tingkat kemampuan peserta tes pada algoritma rancangan tes adaptif dengan kriteria Informasi Maksimum dan EBI Maksimum. Hasil dari kedua rancangan ini lalu dibandingkan. Menurut Wainer (1990) pengembangan algoritma tes adaptif memerlukan perhatian pada empat komponen, yaitu: bank soal, prosedur pemilihan butir soal, pendugaan kemampuan, dan aturan pemberhentian. Berikut adalah alur pengujian algoritma tes adaptif. Dimulai dengan estimasi kemampuan awal peserta tes Pilih dan Berikan Butir Soal yang Optimal Amati dan Evaluasi Jawaban Perbaiki Estimasi Kemampuan Tes berhenti Ya Apakah Kriteria pemberhentian terpenuhi? Tidak Berikan butir yang optimal Gambar 1. Bagan alur pengujian algorima tes adaptif Ketika tes adaptif dimulai, belum ada butir soal yang diberikan pada peserta tes, belum ada respons atau jawaban yang diberikan oleh peserta tes sehingga tes adaptif dimulai dengan mengestimasi tingkat kemampuan awal peserta tes (Green, et al. 1984; Vispoel, 1999; Mills, 1999). Jika tidak ada informasi tingkat kemampuan peserta, maka tingkat kemampuan awal peserta tes umumnya di estimasi pada rentang tingkat kemampuan sedang. Selanjutnya komputer memilih dan 33

Jurnal Pendidikan, Volume 15, Nomor 1, Maret 2014, 31-41 menyajikan atau memberikan butir soal yang optimal dengan estimasi tingkat kemampuan awal peserta tes tersebut. Setelah memperoleh jawaban peserta tes terhadap butir soal yang diberikan, selanjutnya komputer menskor jawaban dengan benar atau salah, kemudian memutuskan apakah tes dilanjutkan ataukah tidak. Ada dua langkah proses untuk melanjutkan tes adaptif. Langkah pertama adalah memperbaiki atau mengestimasi tingkat kemampuan peserta tes; langkah kedua adalah bagaimana memilih butir soal berikutnya. Metode Estimasi Tingkat Kemampuan: Maximum Likelihood Estimation (MLE) Misalkan seorang peserta tes dengan tingkat kemampuan menjawab tes yang berisi n butir soal pilihan ganda dengan parameter butir soal diketahui. Peluang bersama dari peserta tes dapat dituliskan sebagai P ( U1, U 2,..., U n ). Selanjutnya jika asumsi independensi lokal diterapkan maka fungsi kemungkinannya dituliskan sebagai berikut n ui ) P( U1 u1, U2 u2,..., Un un ) Pi ( ) (1 Pi ( 1ui )) (3) i1 L( i = 1,2,..., n, Pi ( ) adalah peluang menjawab benar untuk butir soal ke-i oleh peserta tes yang berkemampuan. Tujuan MLE adalah menemukan nilai yang memaksimumkan fungsi kemungkinan L ( ), yang pada prakteknya, sering dilakukan menggunakan prosedur Newton-Raphson (Hambleton dan Swaminathan, 1985; Embretson dan Raise, 2000). Satu masalah dengan penerapan metode MLE pada tes adaptif adalah ketidakmampuan fungsi kemungkinan untuk menemukan solusi maksimum ketika peserta tes menjawab semua butir soal dengan benar atau salah. Jalan keluar untuk mengatasi ketidakmampuan ini adalah menggunakan metode step-size (Dodd, 1990). Setelah kemampuan peserta diperkirakan kembali, kemudian komputer mesti memilih butir soal berikutnya. Dua metode yang digunakan untuk memilih butir soal berikutnya, yaitu metode pemilihan menggunakan Informasi butir soal Maksimum (Lord, 1980) dan metode Efficiency and Balanced Information (Han, 2012). Kedua metode pemilihan butir soal selanjutnya dikombinasikan dengan keseimbangan konten (content balance). Penelitian ini dilakukan melalui studi simulasi. Bank soal untuk keperluan simulasi dibangun melalui data bangkitan dengan model IRT 3 parameter dengan karakteristik butir-butir soal yang ideal, yaitu tingkat daya beda pada rentang 0,7 sampai 2,0, tingkat kesukaran berdistribusi normal baku, dan faktor tebakan pada rentang 0,0 sampai 0,25. Sebanyak 900 butir soal dijadikan sebagai bank soal untuk keperluan simulasi. Kemampuan peserta tes yang disimulasikan pada 31 titik tingkat kemampuan (theta) dari rentang tingkat kemampuan -3,0 sampai +3,0. Setiap titik tingkat kemampuan diulang sebanyak 100 kali. Rancangan algoritma tes adaptif yang disimulasikan adalah sebagai berikut. 1. Estimasi awal kemampuan peserta dari -0,5 sampai +0,5 2. Pemilihan butir soal menggunakan metode Informasi Maksimum dan EBI Maksimum 3. Metode estimasi peserta setelah peserta menjawab butir soal menggunakan metode Maximum Likelihood 4. Aturan pemberhentian tes menggunakan batas SEE = 0,30. Nilai SEE sebesar ini setara dengan tingkat reliabilitas sebesar 91 persen pada penyelenggaraan tes konvensional menggunakan paper and pencil test (Weiner, 1990). 34

Santoso, Pemilihan Butir Soal Pada Rancangan Tes Adaptif Rancangan algoritma tes adaptif di set sesuai dengan penyelenggaraan Sistem Ujian Online Universitas Terbuka (SUO-UT). Rancangan ini tidak hanya menerapkan metode EBI untuk memilih butir soal yang akan diberikan kepada peserta, tetapi juga mengikuti setting pembelajaran moduler yang diterapkan UT. Dengan kata lain butir-butir soal yang dipilih dan diberikan harus urut modul sehingga keterwakilan butir soal setiap modul secara proporsional dan sesuai kisi-kisi terpenuhi. Butir soal pertama dipilih dari modul pertama. Setelah sejumlah tertentu dari modul pertama secara proporsional dipilih berdasarkan kisi-kisi, maka soal berikutnya dipilih dari modul kedua, begitu seterusnya sampai butir soal dari modul terakhir dipilih dan dimunculkan. Jika kriteria pemberhentian telah dipenuhi maka tes akan dihentikan, namun jika belum terpenuhi maka tes akan dilanjutkan dengan memunculkan butir soal dari modul pertama lagi dan seterusnya secara berurutan sampai kriteria pemberhentian terpenuhi. Simulasi dilakukan menggunakan program SAS versi 9. Program ini dipilih karena kelebihannya dalam mengolah data berstruktur matriks menggunakan prosedur IML (Interactive Matrix Language). Selanjutnya evaluasi penerapan metode pemilihan butir soal dalam rancangan tes adaptif dilakukan terhadap banyaknya butir soal yang diperlukan atau panjang tes, performa hasil estimasi melalui tiga kriteria, yaitu: korelasi, bias, dan kesalahan baku pengukuran (standard error of measurement = SEM). Korelasi adalah hubungan tingkat kemampuan sesungguhnya (true theta, ) dengan rata-rata estimasi tingkat kemampuan (theta estimasi,ˆ ). Semakin besar korelasi semakin dekat rata-rata estimasi tingkat kemampuan terhadap tingkat kemampuan sesungguhnya. Bias adalah selisih antara estimasi tingkat kemampuan dengan kemampuan sesungguhnya, sedangkan kesalahan baku pengukuran (Standard Error of Measurement = SEM) mengindikasikan kesalahan acak pada pengestimasian tingkat kemampuan tertentu. Kesalahan ini juga menggambarkan presisi dari pendugaan kemampuan. Evaluasi juga dilakukan untuk mengetahui proporsi penggunaan butir soal berdasarkan dua metode pemilihan butir soal yang disimulasikan. PEMBAHASAN Sebanyak 900 butir soal dalam Bank Soal untuk keperluan simulasi dibangkitkan menggunakan software WinGen (Han dan Hambleton, 2007). Ringkasan statistika parameter bank soal bangkitan disajikan pada Tabel 1. Tabel 1. Ringkasan Statistik Parameter Butir Soal pada Bank Soal Bankitan Parameter Mean Std-deviasi Min. Maks. Daya beda (a) 1,325 0,366 0,70 2,00 Tingkat kesukaran (b) 0,032 0,980-3,27 3,62 Faktor Tebakan atau Guessing (c) 0,127 0,722 0,00 0,25 Berdasarkan Tabel 1 terlihat bahwa dari 900 butir soal dari data bangkitan yang dibangun sudah sesuai dengan kriteria parameter butir soal yang ideal. Daya beda butir merentang dari 0,7 sampai 2,0; tingkat kesukaran butir soal menyebar normal baku. Faktor tebakan merentang dari 0,0 sampai 0,25 yang sesuai dengan banyaknya option/pilihan pada perangkat tes SUO-UT yaitu sebanyak 4, sehingga peluang untuk menebak jawaban yang benar adalah 0,25. 35

Jurnal Pendidikan, Volume 15, Nomor 1, Maret 2014, 31-41 Panjang Tes Panjang tes atau banyaknya butir soal yang diperlukan untuk rancangan tes adaptif dengan metode Informasi Maksimum dan EBI Maksimum pada setiap tingkat kemampuan peserta tes yang disimulasikan disajikan pada Tabel 2 dan Gambar 2. Tabel 2. Panjang Rancangan Tes Adaptif Kriteria Info Maks dan EBI Maks. Theta Info Max EBI Max -3 21 42-2.8 21 36-2.6 20 30-2.4 19 27-2.2 18 23-2 18 22-1.8 18 22-1.6 18 23-1.4 18 24-1.2 18 25-1 18 26-0.8 18 27-0.6 18 27-0.4 18 27-0.2 18 28 0 18 28 0.2 18 28 0.4 18 28 0.6 18 29 0.8 18 28 1 18 28 1.2 18 27 1.4 18 26 1.6 18 25 1.8 18 24 2 18 24 2.2 18 24 2.4 18 26 2.6 18 28 2.8 18 31 3 19 34 36

Santoso, Pemilihan Butir Soal Pada Rancangan Tes Adaptif Gambar 2. Panjang tes rancangan tes adaptif metode info Maks dan EBI Maks. Berdasarkan Tabel 2 dan Gambar 2 terlihat bahwa penerapan metode Informasi Maksimum memerlukan rata-rata sebanyak 18 butir soal, sedangkan untuk kriteria EBI Maksimum memerlukan rata-rata sebanyak 25 butir soal sampai peserta tes diberhentikan tesnya. Dengan demikian dari sisi panjang tes metode Informasi Maksimum lebih efisien dibandingkan metode EBI Maksimum. Performa Estimasi Tingkat Kemampuan Performa hasil estimasi tingkat kemampuan dapat dilihat melalui nilai korelasi, bias dan kesalahan baku pengukuran. Hubungan antara true theta dengan rata-rata estimasi theta dapat dilihat pada Gambar 3. r InfoMax = 0,995 r EBIMax = 0,999 Gambar 3. Korelasi True Theta dan Rataan Estimasi Theta 37

Jurnal Pendidikan, Volume 15, Nomor 1, Maret 2014, 31-41 Berdasarkan Gambar 3 terlihat bahwa hubungan antara true theta dengan rata-rata estimasi theta dari penerapan metode EBI Maksimum lebih dekat dibandingkan metode Informasi Maksimum. Hal ini juga ditunjukkan dari nilai korelasi untuk metode EBI Maksimum sebesar 0,999 yang lebih besar dibandingkan metode Informasi Maksimum sebesar 0,995. Bias dan kesalahan baku pengukuran dari penerapan metode Informasi Maksimum dan EBI Maksimum dapat dilihat pada Gambar 4 dan 5. Gambar 4. Bias info Maks dan EBI Maks. Gambar 5. SEM Info Maks dan EBI Maks. Berdasarkan Gambar 4 dan 5 dapat dilihat bahwa bias dan kesalahan baku pengukuran (standard error of measurement = SEM) rancangan tes adaptif menggunakan metode EBI Maksimum 38

Santoso, Pemilihan Butir Soal Pada Rancangan Tes Adaptif lebih rendah dibandingkan metode Informasi Maksimum. Ini berarti metode EBI Maksimum lebih akurat dibandingkan metode Informasi Maksimum. Berdasarkan kriteria korelasi, bias, dan SEM maka penerapan metode pemilihan butir soal dalam rancangan tes adaptif menggunakan EBI Maksimum lebih baik dibandingkan metode Informasi Maksimum. Frekuensi atau proporsi butir soal yang digunakan disajikan pada gambar 6. Dari Gambar 6 terlihat bahwa berdasarkan daya pembeda butir, proporsi penggunaan butir soal tidak sama untuk dua metode pemilihan butir soal. Butir-butir soal dengan tingkat daya pembeda butir tinggi lebih sering terpilih untuk metode pemilihan butir menggunakan Informasi Maksimum. Sebaliknya untuk metode EBI, butir-butir soal dengan daya pembeda rendah lebih sering terpilih dibandingkan butirbutir soal dengan daya pembeda tinggi. Hasil simulasi juga menunjukkan bahwa pada pemilihan butir dengan metode Informasi Maksimum, butir-butir soal dengan daya pembeda tinggi lebih sering dimunculkan pada awal tes sedangkan butir-butir soal dengan daya pembeda rendah dimunculkan pada akhir-akhir tes. Gambar 6. Proporsi Penggunaan Butir Soal Selanjutnya metode EBI Maksimum menunjukkan hal yang sebaliknya yaitu butir-butir soal dengan daya beda rendah lebih sering dimunculkan pada awal tes sedangkan butir-butir soal dengan daya beda tinggi lebih sering dimunculkan di akhir tes. Dengan demikian metode EBI Maksimum lebih memanfaatkan bank soal dibandingkan metode Informasi Maksimum yang jarang memanfaatkan butir-butir soal dengan daya beda rendah. Pertanyaan tentang apakah butir soal pertama dalam rancangan tes adaptif yang dipilih harus yang memiliki daya beda butir tinggi (Veerkamp dan Berger, 1997; Kit dan Chang, 2001) dapat terjawab melalui metode EBI Maksimum. Metode Informasi Maksimum menghasilkan panjang tes lebih sedikit dibandingkan metode EBI Maksimum. Hal ini merupakan konsekuensi logis dari metode Informasi Maksimum yang memilih butir soal dengan nilai fungsi infomasi yang tertinggi. Nilai Informasi butir soal tertinggi akan diperoleh dari butir soal dengan tingkat daya beda yang tinggi. Semakin sering butir-butir soal dengan daya beda butir yang tinggi terpilih dan diberikan pada awal tes semakin sedikit jumlah butir soal yang diperlukan untuk menghentikan tes. Karena metode Informasi Maksimum sangat dipengaruhi oleh 39

Jurnal Pendidikan, Volume 15, Nomor 1, Maret 2014, 31-41 nilai daya beda, maka butir soal yang dipilih sangat dipengaruhi oleh daya beda butir tanpa menghiraukan kesesuaian dengan tingkat estimasi kemampuan setiap individu peserta tes khususnya di awal tes. Akibatnya penerapan metode Informasi Maksimum kurang akurat dalam mengestimasi kemampuan peserta khususnya di awal tes. Frekuensi atau proporsi butir soal yang dipilih dipengaruhi oleh tingkat daya beda butir dan tidak dipengaruhi oleh tingkat kesukaran butir dan faktor tebakan. Berdasarkan metode Informasi Maksimum, butir-butir soal dengan tingkat daya beda tinggi lebih sering dipilih pada awal tes dan butir soal dengan daya beda rendah jarang dipilih, sedangkan berdasarkan metode EBI Maksimum butir-butir soal dengan daya beda rendah sering dipilih di awal tes dan butir-butir soal dengan daya beda tinggi dipilih di akhir. Hal ini menunjukkan bahwa penerapan metode EBI lebih mengoptimalkan kebermanfaatan parameter-parameter di bank soal dibandingkan metode Informasi Maksimum. Hal ini juga merupakan konsekuensi logis dari metode Informasi Maksimum yang sangat dipengaruhi oleh tingkat daya beda butir. Kurang optimalnya kebermanfaatan bank soal karena butir-butir soal dengan daya beda rendah jarang terpilih untuk diberikan kepada peserta tes. Hal sebaliknya terjadi pada penerapan metode EBI Maksimum. Berdasarkan metode ini butir soal dengan daya beda rendah akan terpilih di awal tes dengan tingkat kemampuan setiap individu peserta tes disesuaikan dengan tingkat kesukaran butir soal. Butir-butir soal dengan daya beda tinggi akan terpilih di akhir tes. Hasil simulasi menunjukkan bahwa penerapan metode EBI Maksimum akan menghasilkan estimasi tingkat kemampuan yang akurat dan menjamin kebermanfaatan dari bank soal. Penelitian simulasi ini hasilnya sejalan dengan penelitian Han (2012). Perbedaan penelitian ini dengan penelitian Han adalah pada algoritma rancangan tes adaptif, bank soal, dan software simulasi. KESIMPULAN Performa estimasi tingkat kemampuan berdasarkan metode EBI Maksimum lebih baik dibandingkan metode Informasi Maksimum. Hal ini ditunjukkan oleh nilai korelasi antara tingkat kemampuan sesungguhnya dengan estimasi tingkat kemampuan yang lebih tinggi pada metode EBI Maksimum lebih baik daripada Informasi Maksimum. Hal senada juga ditunjukkan dari nilai bias dan kesalahan baku pengukuran dari metode EBI Maksimum yang lebih kecil dibandingkan Informasi Maksimum. Kebermanfaatan butir soal pada bank soal juga lebih optimal untuk metode EBI Maksimum. Berdasarkan hasil simulasi maka jika UT akan mengembangkan tes adaptif kedalam SUO-UT sebaiknya menerapkan metode EBI untuk pemilihan butir soal, karena di samping menghasilkan performa hasil estimasi yang akurat juga dapat mengoptimalkan penggunaan bank soal. REFERENSI Dodd, B.G. (1990). The effect of item selection procedure and stepsize on computerized adaptive attitude measurement using the rating scale model. Applied Psychological Measurement, 4, 355-366. Embretson, S.E. & Raise, S.P. (2000). Item response theory for psychologist. London: Lawrence Erlbaum Associates, Inc. Green, B.F., Bock, R.D., Humphyers, L.G., et al. (1984). Technical guidelines for assessing computerized adaptive tests. Journal of Educational Measurement, 4, 347-360. Hambleton, R.K. & Swaminathan, H. (1985). Item response theory: Principles and applications, Boston, MA: Kluwer Academic Publishers. 40

Santoso, Pemilihan Butir Soal Pada Rancangan Tes Adaptif Han, K.T. (2012). An efficiency balanced information criterion for item selection in computerized adaptive testing. Journal of Educational Measurement, 3, 225-246. Han, K.T., & Hambleton, R.K. (2007). User s manual for WinGen: Windows software that generates IRT model parameters and item responses. Amherst, MA: University of Massachusetts. Kit, T.H., & Chang, H.H. (2001). Item selection in computerized adaptive testing: Should more discriminating item be used first? Journal of Educational Measurement, 3, 249-266. Lord, F.M. (1980). Applications of item response theory to practical testing problems. Hillsdale, NJ : Lawrence Erlbaum Associates. Mills, C.N. (1999). Development and introduction of a computere adaptive graduate record examinations general test. Dalam F. Drasgow & J. B. Olson-Buchanan (Eds), Innovations in Computerized Assessment (pp. 117 136). Mahwah, NJ: Lawrence Erlbaum Associates Publishers. Veerkamp, W.J.J. & Berger, M.P.F. (1997). Some new item selection criterian for adaptive testing. Journal of Educational and Behavioral Statistics, 2, 203-226. Vispoel, W.P. (1999). Creating computerized adaptive test of music aptitude: Problem, solusions, and future directions. Dalam F. Drasgow, & J. B. Olson-Buchanan (Eds.), Innovations in Computerized Assessment (pp. 151-176). Mahwah, NJ: Lawrence Erlbaum Associates Publishers. Wainer, H., et al. (1990). Computerized adaptive testing: A primer (2 nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates. 41