S A L A T I G Ae-repository.perpus.iainsalatiga.ac.id/1213/1...dengan menggunakan tes. Selama ini,...
Transcript of S A L A T I G Ae-repository.perpus.iainsalatiga.ac.id/1213/1...dengan menggunakan tes. Selama ini,...
1
(52-kol-10-220)
PROGRAM PENELITIAN PENDIDIKAN DAN KELEMBAGAAN ISLAM
2010
Pengembangan Software Computerized Adaptive Testing (CAT) Berbasis Tingkat
Kesukaran, Daya Beda Dan Tingkat Menebak (Guessing) Menggunakan Bahasa
Pemogramaan PHP dan My SQL
Oleh:
1. Winarno, S. Si, M. Pd. (Ketua Tim)
2. Haryo Aji Nugroho, M. Hum (Anggota)
3. Muh. Muqtafin, A. Md Komp (Anggota)
Sekolah Tinggi Agama Islam Negeri (STAIN)
S A L A T I G A Nopember 2010
2
BAB I
PENDAHULUAN
A. Latar Belakang Masalah
Salah satu cara dalam melaksanakan evaluasi dalam proses belajar mengajar adalah
dengan menggunakan tes. Selama ini, sebagian besar alat untuk mengukur tes
menggunakan kertas dan pencil (papper and pencils). Perkembangan terkini dalam usaha
peningkatan pelaksanaan tes dengan kehadiran teknologi komputer telah mulai
dipergunakan untuk kemajuan pengujian (Hambleton, R.K., Swaminathan, H., dan Rogers,
H.: 1991). Komputerisasi penilaian individu lebih efisien dan akurat daripada penilaian
menggunakan kertas dan pensil (pencil and paper test) (Wainer, 1990: 273). Salah satu
prototype komputerisasi penilaian individu yang berkembang saat ini adalah Computerized
Adaptive Testing (CAT). CAT adalah suatu metode pengujian atau evaluasi dengan
menggunakan teknologi informasi yang bersifat adaptif. Adaptif berarti bahwa pemberian
soal ujian berikutnya tergantung pada perilaku peserta ujian dalam menjawab soal
sebelumnya sehingga ujian yang diberikan untuk setiap peserta dapat bersifat unik
berdasarkan tingkat kemampuan masing-masing peserta
Kelebihan-kelebihan yang ditawarkan oleh CAT antara lain: 1). CAT lebih efisien
dan akurat dalam mengukur kemampuan peserta tes (Weiss & Schleisman, 1999; Weiss,
2004); 2). CAT tidak memerlukan lembar jawaban karena skor dapat segera diketahui oleh
peserta tes begitu tes telah dinyatakan selesai; 3). Pengembangan item untuk bank soal
mudah dilakukan (Wainer, 1990: 4). CAT memungkinkan siswa untuk bekerja dalam
langkahnya sendiri. Kecepatan siswa dalam menjawab soal dapat digunakan sebagai
informasi tambahan dalam melakukan penilaian terhadap siswa; 3). Soal yang diberikan
memiliki level kesulitan sesuai dengan kemampuan siswa, tidak terlalu susah ataupun
terlalu mudah; 4). Penilaian dapat dilakukan dengan segera sehingga dapat memberikan
umpan balik yang cepat kepada siswa; 5). Keamanan ujian dapat ditingkatkan. Rangkaian
soal yang diberikan akan berbeda untuk setiap siswa sehingga soal yang akan muncul
selanjutnya tidak dapat ditebak. Selain itu, bila jumlah soal banyak, kemungkinan
munculnya soal yang sama lebih dari satu kali sangat kecil sehingga kemungkinan siswa
untuk menghapal soal menjadi sangat kecil. Kerahasiaan soal pun dapat terjaga, karena
soal tersimpan dalam suatu basis data dan hanya pembuat CAT yang membuat soal
3
tersebut yang dapat mengupdatenya; 6). Ujian dapat dipresentasikan melalui teks,
grafik,audio, dan bahkan video klip.
Dalam Computerized Adaptive Testing (CAT) memerlukan : (a) Bank soal, (b)
Prosedur pemilihan item awal, (c) Prosedur pemilihan item selama pelaksanaan tes, (d)
Metode untuk penskoran tes, (e) Prosedur untuk mengakhiri tes, dan (f) Estimasi
kemampuan peserta tes (Weiss & Schleisman dalam Masters & Keeves, 1999: 130).
Elemen penting dalam CAT adalah bank soal (item bank), bank soal terdiri dari koleksi
item tes, jawaban, tingkat kesukaran tes, daya beda dan tingkat kesukaran (Reckase, 2003).
Dalam prosedur pemilihan item awal diberikan item tes dengan tingkat kesukaran yang
sedang. Prosedur mengakhiri tes diberikan agar tes tidak terlalu panjang.
Saat ini bidang pengukuran di Indonesia mengalami kemajuan yang pesat. Penggunaan
software komputer untuk analisis item soal telah mengalami kemajuan yang luar biasa.
Analisis item soal terkini yang sering digunakan adalah menggunakan pendekatan IRT
(Item Response Theory). Dalam IRT bisa dilakukan estimasi kemampuan peserta tes dan
mengetahui karakteristik item soal mengenai daya beda (b), tingkat kesukaran (a) dan
tingkat menebak (c). Dalam pelaksanaannya, analisis secara IRT sangat mudah karena
dalam analisis dapat digunakan program komputer, seperti program RASCAL, PASCAL,
BIGSTEPS, QUEST atau BILOG MG
B. Identifikasi Masalah
Berdasarkan latar belakang masalah di atas, dapat diidentifikasi permasalahan sebagai
berikut:
1. Tes merupakan salah satu cara dalam melakukan evaluasi dalam proses belajar
mengajar.
2. Komputerisasi penilaian individu lebih efisien dan akurat daripada penilaian
menggunakan kertas dan pensil (pencil and paper test)
3. Dalam mengembangkan Computerized Adaptive Testing (CAT) keberadaan bank
soal (item bank) sangat penting.
4. Bagaimana prosedur pemilihan item awal dalam CAT dilakukan?
5. Bagaimana estimasi kemampuan peserta tes setelah diketahui pola respon
jawabannya?
4
6. Prosedur pemilihan item selama pelaksanaan tes dalam mengembangkan software
CAT yang berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c)
dalam prosedur pemilihan item selama pelaksanaan tes.
7. Prosedur untuk mengakhiri tes (stopping rule) dalam CAT dilakukan.
8. Berapa lama setiap item soal akan ditampilkan oleh komputer sebelum computer
menampilkan soal berikutnya.
9. Metode untuk penskoran dalan CAT
10. Estimasi Kemampuan Peserta tes dalam CAT menggunakan metode Maximum
Likelihood (MLE)
C. Pembatasan Masalah
Untuk mengarahkan agar penelitian lebih terfokus pada permasalahan, maka
penelitian ini dibatasi pada:
1. Bank soal yang diambil dari soal Ujian Plecement Tes Program Studi Intensif
Bahasa Arab (SIBA) Masuk STAIN Salatiga tahun akademik 2009/2010
2. Pembuatan CAT (Computerized Adaptive Testing) berbasis daya beda (b), tingkat
kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama
pelaksanaan tes
3. Estimasi kemampuan peserta tes menggunakan metode Maximum Likelihood
(MLE)
D. Rumusan Masalah
Mengacu pada identifikasi dan pembatasan masalah di atas maka rumusan masalah
dalam rancangan penelitian ini antara lain:
1. Bagaimana mengembangkan bank soal dalam membuat software CAT?
2. Bagaimana mengembangkan software CAT berbasis daya beda (b), tingkat
kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama
pelaksanaan tes?
3. Bagaimana mengembangkan software CAT yang mampu mengukur kemampuan
peserta tes dengan tepat dan akurat menggunakan metode Maximum Likelihood
(MLE)?
5
E. Tujuan Penelitian
Penelitian ini bertujuan untuk:
1. Mengembangkan bank soal dalam membuat softwrae CAT.
2. Membuat, mengembangkan dan menghasilkan software CAT berbasis daya beda
(b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item
selama pelaksanaan tes
3. Membuat, mengembangkan dan menghasilkan software CAT yang mampu
mengukur kemampuan peserta tes dengan tepat dan akurat menggunakan metode
Maximum Likelihood (MLE)
F. Manfaat Penelitan
Dari penelitian ini diharapkan dapat memperoleh manfaat
1. Secara teoritis
Hasil software Computerized Adaptive Testing (CAT) yang dihasilkan
dalam penelitian ini dìharapkan dapat membantu dalam menemukan solusi untuk
mengetahui kemampuan seseorang yang lebih akurat dan mengurangi kecurangan
dalam sistem pengujian
2. Secara praktis
Hasil software Computerized Adaptive Testing (CAT) dalam penelitian ini
diharapkan dapat berguna bagi pengukuran kemampuan peserta tes di dalam bidang
pendidikan
3. Bagi STAIN Salatiga dan Perguruan Tinggi Islam (PTI)
Dari software CAT ini bisa digunakan untuk semua jenis tes model pilihan
ganda dan untuk mengetahui kemampuan peserta tes secara lebih baik.
6
BAB II
TINJAUAN PUSTAKA
A. Computeriized Adaptive Testing (CAT)
Adaptive testing juga disebut sebagai tailored test, yaitu suatu tes yang
menyesuaikan kemampuan peserta (Lord, 1980). Menurut Wainer (1990) Adaptive testing
merupakan tes yang diselenggarakan bagi peserta tes dengan pertanyaan-pertanyaan /
item-itemnya ditentukan berdasarkan jawaban (respon) awal peserta.
Penyelenggaraan tes adaptif berbeda dengan paper and pencil test (PP test). Pada PP
tes seluruh peserta tes akan diberikan soal yang sama dan dengan jumlah soal yang
tetap/sama, sedangkan pada tes adaptif setiap peserta akan diberikan soal yang berbeda-
beda. Pertanyaan-pertanyaan pada tes adaptif menyesuaikan dengan kemampuan masing-
masing peserta tes.
Adaptive tes memerlukan : (a) bank soal, (b) prosedur pemilihan item awal, (c)
prosedur pemilihan item selama pelaksanaan tes, (d) metode untuk penskoran tes, dan (e)
prosedur untuk mengakhiri tes (Weiss & Schleisman dalam Masters & Keeves, 1999: 130).
Kelebihan-kelebihan yang ditawarkan oleh CAT antara lain: 1). CAT lebih efisien
dan akurat dalam mengukur kemampuan peserta tes (Weiss & Schleisman, 1999; Weiss,
2004); 2). CAT tidak memerlukan lembar jawaban karena skor dapat segera diketahui oleh
peserta tes begitu tes telah dinyatakan selesai; 3). Pengembangan item untuk bank soal
mudah dilakukan (Wainer, 1990: 4). CAT memungkinkan siswa untuk bekerja dalam
langkahnya sendiri. Kecepatan siswa dalam menjawab soal dapat digunakan sebagai
informasi tambahan dalam melakukan penilaian terhadap siswa; 3). Soal yang diberikan
memiliki level kesulitan sesuai dengan kemampuan siswa, tidak terlalu susah ataupun
terlalu mudah; 4). Penilaian dapat dilakukan dengan segera sehingga dapat memberikan
umpan balik yang cepat kepada siswa; 5). Keamanan ujian dapat ditingkatkan. Rangkaian
soal yang diberikan akan berbeda untuk setiap siswa sehingga soal yang akan muncul
selanjutnya tidak dapat ditebak. Selain itu, bila jumlah soal banyak, kemungkinan
munculnya soal yang sama lebih dari satu kali sangat kecil sehingga kemungkinan siswa
untuk menghapal soal menjadi sangat kecil. Kerahasiaan soal pun dapat terjaga, karena
soal tersimpan dalam suatu basis data dan hanya pembuat CAT yang membuat soal
tersebut yang dapat mengupdatenya; 6). Ujian dapat dipresentasikan melalui teks,
grafik,audio, dan bahkan video klip
7
Diagram berikut adalah algoritma adaptive test.
Gambar 1. Diagram alur Adaptive Test (Sumber : Wainer, 1990. :108)
Berdasarkan Gambar 1. Pertama-tama kemampuan sementara peserta diestimasi.
Apabila tidak ada informasi kemampuan awal peserta tes maka diambil soal tes dengan
tingkat kesukaran yang sedang. Kemudian estimasi kemampuan peserta tes dari respon
jawaban yang diberikan sebagai dasar pertimbangan dalam mengambil soal berikutnya.
Berikutnya diberikan/disajikan butir soal yang optimal sesuai dengan kemampuan awal,
amati dan evaluasi respon peserta, setelah itu perbaiki estimasi kemampuan peserta,
kemudian berdasarkan aturan pemberhentian tes, dilakukan uji apakah kriteria
pemberhentian tes telah dipenuhi ataukah tidak. Jika telah dipenuhi maka tes berhenti,
sebaliknya jika belum dipenuhi peserta diberikan butir soal yang optimal lainnya, hal ini
terus berlangsung sampai terpenuhinya kriteria pemberhentian tes.
1. Mulai dengan skor awal
3. Amati dan Evaluasi respons
4. Revisi estimasi kemampuan
8. Administrasi
tes berikutnya
7. Akhiri tes?
6. Akhiri Tes
Tidak
Ya
Tidak
Ya
2. Memilih dan menyajikan skala
Item yang optimal
9. Stop
5. Apakah aturan
pemberhentian terpenuhi?
8
Dalam merancang CAT, pengembang tes harus menentukan bagaimana dan estimasi
kemampuan dihitung sementara, bagaimana item tes dipilih pada estimasi tersebut dan
bagaimana estimasi kemampuan akhir diperoleh (Linden, 2002:3)
1. Sejarah CAT
Gagasan awal dari adaptive test berasal dari seorang psikolog kebangsaan Perancis
bernama Alfred Binet (1859-1911). Computerized adaptive testing (CAT) dirancang untuk
setiap individu peserta tes (Wiener, 1990). Peserta tes akan diberi satu set soal yang
memenuhi spesifikasi rancangan tes (kisi-kisi) dan biasanya sesuai dengan tingkat
kemampuan setiap individu. Tes dimulai dengan soal-soal yang tidak terlalu sukar
(katagori sedang). Setiap peserta tes menjawab soal dan komputer akan memberikan skor.
Jawaban terhadap soal tersebut akan menentukan soal yang akan ditampilkan oleh
komputer selanjutnya. Setiap menjawab soal dengan benar, peserta tes akan diberi soal
yang lebih sukar. Sebaliknya, bila menjawab salah, komputer akan memilihkan soal yang
lebih mudah. Urutan soal disajikan tergantung pada jawaban terhadap soal-soal
sebetutnnya dan pada kisi-kisi tes. Dengan kata lain, komputer diprogram untuk
memberikan soal yang sesuai dengan kisi-kisi tes, sekaligus secara terus menerus mencari
soal-soal yang tingkat kesulitannya sesuai dengan tingkat kemampuan peserta ujian. Dalam
hal ini peserta ujian harus menjawab semua soal. Keuntungannya, pada setiap layar hanya
ditampilkan satu butir soal, sehingga peserta tes dapat berkonsentrasi untuk menjawab soal
tersebut. Setelah menjawab soal, peserta ujian tidak akan dapat mengulang soal-soal
sebelumnya dan mengganti jawabannya.
2. Prinsip Computerized Adaptive Testing (CAT)
a. Membangun Item bank
Item bank dalam CAT umumnya menggunakan Item Response Theory (IRT) (Lord
and Novick, 1968; Lord, 1980). Asal mula IRT adalah kombinasi suatu versi hukum phi-
gamma dengan suatu analisis faktor butir soal (item factor analisis) kemudian bernama
Teori Trait Latent (Latent Trait Theory), kemudian sekarang secara umum dikenal menjadi
teori jawaban butir soal (Item Response Theory) (McDonald, 1999: 8).
Dalam IRT memiliki kelebihan diantaranya: (1) IRT tidak berdasarkan grup
dependent; (2) Skor siswa dideskripsikan bukan test dependent; (3) Model ini menekankan
pada tingkat butir soal bukan tes; (4) IRT tidak memerlukan paralel tes untuk menentukan
relilabilitas tes; (5) IRT suatu model yang memerlukan suatu pengukuran ketepatan untuk
setiap skor tingkat kemampuan; (6). Asumsi banyak soal yang diukur pada trait yang sama,
9
perkiraan tingkat kemampuan peserta didik adalah independen; (7) Asumsi pada populasi
tingkat kesukaran, daya pembeda merupakan independen sampel yang menggambarkan
untuk tujuan kalibrasi soal; (8) Statistik yang digunakan untuk menghitung tingkat
kemampuan siswa diperkirakan dapat terlaksana, (Hambleton dan Swaminathan, 1985:
11). Jadi IRT merupakan hubungan antara probabilitas jawaban suatu butir soal yang benar
dan kemampuan siswa atau tingkatan/level prestasi siswa.
Dalam pembuatan item bank, akan dilakukan kegiatan menganalisis butir soal yang
merupakan suatu kegiatan yang harus dilakukan untuk meningkatkan mutu soal yang telah
ditulis. Kegiatan ini merupakan proses pengumpulan, peringkasan, dan penggunaan
informasi dari jawaban siswa untuk membuat keputusan tentang setiap penilaian (Nitko,
1996: 308). Tujuan penelaahan adalah untuk mengkaji dan menelaah setiap butir soal agar
diperoleh soal yang bermutu sebelum soal digunakan. Di samping itu, tujuan analisis butir
soal juga untuk membantu meningkatkan tes melalui revisi atau membuang soal yang tidak
efektif, serta untuk mengetahui informasi diagnostik pada siswa apakah mereka
sudah/belum memahami materi yang telah diajarkan (Aiken, 1994: 63). Soal yang bermutu
adalah soal yang dapat memberikan informasi setepat-tepatnya sesuai dengan tujuannya di
antaranya dapat menentukan peserta didik mana yang sudah atau belum menguasai materi
yang diajarkan pengajar.
Dalam melaksanakan analisis butir soal, para penulis soal dapat menganalisis
secara kualitatif, dalam kaitan dengan isi dan bentuknya, dan kuantitatif dalam kaitan
dengan ciri-ciri statistiknya (Anastasi dan Urbina, 1997: 172) atau prosedur peningkatan
secara judgment dan prosedur peningkatan secara empirik (Popham, 1995: 195). Analisis
kualitatif mencakup pertimbangan validitas isi dan konstruk, sedangkan analisis kuantitatif
mencakup pengukuran kesulitan butir soal dan diskriminasi soal yang termasuk validitas
soal dan reliabilitasnya
1). Asumsi-asumsi Pendekatan IRT
Pendekatan IRT didasarkan pada model matematika, dimana peluang individu
untuk menjawab butir dengan benar tergantung pada kemampuan individu dan
karakteristik butir. Ini berarti peserta tes dengan kemampuan tinggi akan mempunyai pro-
babilitas menjawab benar lebih besar jika dibandingkan dengan peserta yang mempunyai
kemampuan rendah. Pendekatan ini memiliki asumsi mengenai data dimana model ini
dapat diterapkan.
10
Hambleton dan Swaminathan (1985: 16) dan Hambleton, Swaminathan, dan
Rogers (1991: 9) menyatakan bahwa ada tiga asumsi yang mendasari teori respon butir,
yaitu unidimensi, independensi lokal dan invariansi parameter. Ketiga asumsi dapat
dijelaskan sebagai berikut. Unidimensi, artinya setiap butir tes hanya mengukur satu
kemampuan. Contohnya, pada tes prestasi belajar bidang studi matematika, butir-butir
yang termuat di dalamnya hanya mengukur kemampuan siswa bidang studi matematika
saja, bukan bidang yang lainnya. Pada praktiknya, asumsi unidimensi tidak dapat dipenuhi
secara ketat karena adanya faktor-faktor kognitif, kepribadian dan faktor-faktor
administratif dalam tes, seperti kecemasan, motivasi, dan tendensi untuk menebak.
Memperhatikan hal ini, asumsi unidimensi dapat ditunjukkan hanya jika tes mengandung
hanya satu komponen dominan yang mengukur prestasi suatu subjek.
Independensi lokal terjadi jika faktor-faktor yang mempengaruhi prestasi menjadi
konstan, maka respons subjek terhadap pasangan butir yang manapun akan independen
secara statistik satu sama lain. Asumsi ini akan terpenuhi apabila jawaban peserta terhadap
sebuah butir soal tidak mempengaruhi jawaban peserta terhadap terhadap butir soal yang
lain. Tes untuk memenuhi asumsi independensi lokal dapat dilakukan dengan
membuktikan bahwa peluang dari pola jawaban setiap peserta tes sama dengan hasil kali
peluang jawaban peserta tes pada setiap butir soal.
Menurut Hambleton, Swaminathan, dan Rogers (1991: 10), independensi lokal
secara matematis dinyatakan sebagai berikut :
nn upupupuuup ......,...,, 2121
=
n
i
iup1
n
i
uu ii PP1
1)(1)( ....................................................(1)
keterangan : i : 1, 2, 3, …, n
n : banyaknya butir tes
iup : probabilitas peserta tes yang memiliki kemampuan yang
dipilih secara acak dapat menjawab butir ke- i dengan benar.
Invarian parameter artinya karakteristik butir soal tidak tergantung pada distribusi
parameter kemampuan peserta tes dan parameter yang menjadi ciri peserta tes tidak
bergantung dari ciri butir soal. Kemampuan seseorang tidak akan berubah hanya karena
mengerjakan tes yang berbeda tingkat kesulitannya dan parameter butir tes tidak akan
11
berubah hanya karena diujikan pada kelompok peserta tes yang berbeda tingkat
kemampuannya.
Menunurut Hambleton, Swaminathan, dan Rogers (1991: 18), invarian parameter
kemampuan dapat diselidiki dengan mengajukan dua seperangkat tes atau lebih yang
memiliki tingkat kesukaran yang berbeda pada sekelompok peserta tes. Invarians
parameter kemampuan akan terbukti jika estimasi kemampuan peserta tes tidak berbeda
walaupun tes yang dikerjakan berbeda tingkat kesulitannya. Invarians parameter butir
dapat diselidiki dengan mengujikan tes pada kelompok peserta yang berbeda. Invarians
parameter butir terbukti jika estimasi parameter butir tidak berbeda walaupun diujikan
pada kelompok peserta yang berbeda tingkat kemampuannya.
Dalam teori respons butir, selain asumsi-asumsi yang telah diuraikan sebelumnya di
atas adala ada hal penting yang perlu diperhatikan adalah pemilihan model yang tepat.
Pemilihan model yang tepat akan mengungkap keadaan yang sesungguhnya dari data tes
sebagai hasil pengukuran.
Selain ketiga asumsi yang dikemukakan Hambleton dkk di atas, Wainer dan
Mislevy mengajukan empat asumsi lain dari pendekatan IRT. Asumsi pendekatan IRT
menurut Wainer dan Mislevy (1990) adalah:
a). Urutan dari pemberian butir tes tidak relevan. Berbeda dengan pendekatan klasik
yang memberikan butir soal yang mudah di awal tes kemudian dilanjutkan dengan
butir soal yang lebih sukar, pemberian butir soal pada pendekatan IRT tidak perlu
melihat urutan dari kesukaran butir soal. Dengan demikian, butir soal dapat
diadministrasikan sesuai dengan kemampuan butir soal.
b). Parameter butir soal yang sama digunakan untuk semua peserta tes. Apabila
sekelompok peserta tes akan diperkirakan kemampuannya dengan seperangkat butir
tes, maka model IRT yang digunakan pada butir-butir soal tersebut harus sama.
Tujuannya agar skor yang diperoleh dapat diperbandingkan satu sama lain.
c). Semua parameter butir soal diketahui. Untuk dapat memperkirakan kemampuan
(proficiency) peserta tes, maka parameter dari setiap butir soal perlu diketahui.
Untuk mengetahui parameter dari setiap butir soal perlu dilakukan kalibrasi atau
pendugaan (estimations).
d). Respons peserta tes tidak terkait dengan parameter butir soal. Asumsi ini sama
dengan asumsi indepedensi local yang dikemukakan Hambleton, Swaminathan dan
Rogers sebelumnya.
12
2). Model Pendekatan Item Response Theory
Model yang digunakan pada pendekatan IRT adalah falsifiable model (Hambleton,
Swaminathan dan Rogers, 1991: 7). Artinya, model IRT yang digunakan dapat cocok
ataupun tidak cocok dengan data tes yang dianalisis. Dengan kata lain dapat saja model
IRT yang digunakan tidak dapat menjelaskan data tes tersebut. Dengan demikian, perlu
dilakukan analisis kecocokkan model (goodness of fit) terhadap data tes. Sehingga apabila
ditemukan ketidakcocokkan antara data dengan model, artinya model IRT yang digunakan
tidak dapat diterapkan pada data tes yang dianalisis. Hal demikian tidak ditemui pada
pendekatan teori klasik, dimana apabila dari analisis butir soal diperoleh hasil yang tidak
mencapai standard yang ditentukan, maka butir soal tersebut dianggap tidak biak sehingga
didrop dari tes.
Item characteristic function atau item characteristic curve (ICC) merupakan
ekpresi matematika yang menggambarkan peluang menjawab benar pada kemampuan dan
karakteristik item tertentu. Dalam IRT, ada tiga model yang paling banyak digunakan
(Hambleton, Swaminathan dan Rogers, 1991:12), yaitu model satu parameter logistik (1
PL), dua parameter logistik (2 PL), dan tiga parameter logistik (3 PL). Ketiga model ini
digunakan pada asumsi unidimensi dan data butir soal yang diskor dikotomous.
a). Model Logistik Tiga Parameter (3P)
Sesuai dengan namanya, model logistik tiga parameter ditentukan oleh tiga
karakteristik butir yaitu indeks kesukaran butir soal, indeks daya beda butir, dan parameter
pseudoguessing (tingkat menebak). Dengan adanya tingkat menebak pada model logistik
tiga parameter, memungkinkan subyek yang memiliki kemampuan rendah mempunyai
peluang untuk menjawab butir soal dengan benar. Secara matematis, model logistik tiga
parameter dapat dinyatakan sebagai berikut (Hambleton, Swaminathan, dan Rogers, 1991:
17, Hambleton, dan Swaminathan, 1985 : 49).
)(.
)(.
1)1()(
ii
ii
baD
baD
iiie
eccP
; i = 1, 2, ... , n ............................... (4)
Sedangkan : )(iP : peluang peserta tes yang memiliki kemampuan dipilih
secara acak dapat menjawab butir i dengan benar
: tingkat kemampuan subjek
D : faktor skala = 1,7
ai : indeks daya beda dari butir ke-i
bi : indeks kesukaran butir ke-i
13
ci : indeks tingkat menebak butir ke-i
e : 2,718
n : banyaknya item dalam tes.
Nilai kemampuan peserta () terletak di antara –4 dan +4, sesuai dengan daerah
asal sebaran normal. Pernyataan ini merupakan asumsi yang mendasari besar nilai bi.
Secara teoretis, nilai bi terletak di antara - dan + . Suatu butir dikatakan baik jika nilai
ini berkisar antara –2 dan +2 (Hambleton dan Swaminathan, 1985: 107). Jika nilai bi
mendekati –2, maka indeks kesukaran butir sangat rendah, sedangkan jika nilai bi
mendekati +2 maka indeks kesukaran butir sangat tinggi untuk suatu kelompok peserta tes.
Parameter ai merupakan daya beda yang dimiliki butir ke-i. Parameter ini
menggambarkan seberapa baik sebuah butir dapat membedakan peserta yang
berkemampuan tinggi dengan yang berkemampuan rendah. Pada kurva karakteristik, ai
merupakan kemiringan (slope) dari kurva di titik bi pada skala kemampuan tertentu.
Karena merupakan kemiringan, diperoleh semakin besar kemiringannya, maka semakin
besar daya beda butir tersebut. Secara teoretis, nilai ai ini terletak antara 0 dan +. Pada
pada butir yang baik nilai ini mempunyai hubungan positif dengan performen pada butir
dengan kemampuan yang diukur, dan ai terletak antara 0 dan 2 (Hambleton dan
Swaminathan, 1985: 37 ).
Peluang menjawab benar dengan memberikan jawaban tingkat menebak
dilambangkan dengan ci, yang disebut dengan tingkat menebak. Parameter ini memberikan
suatu kemungkinan asimtot bawah yang tidak nol (nonzero lower asymtote) pada kurva
karakteristik butir (ICC). Parameter ini menggambarkan peluang peserta dengan
kemampuan rendah menjawab dengan benar pada suatu butir yang mempunyai indeks
kesukaran yang tidak sesuai dengan kemampuan peserta tersebut. Besarnya harga ci
diasumsikan lebih kecil daripada nilai yang akan dihasilkan jika peserta tes menebak
secara acak jawaban pada suatu butir. Pada suatu butir tes, nilai ci ini berkisar antara 0 dan
1. Suatu butir dikatakan baik jika nilai ci tidak lebih dari 1/k, dengan k banyaknya pilihan
(Hullin, 1983: 36). Jadi misalnya pada suatu perangkat tes pilihan ganda, ada 4 pilihan
untuk setiap butir tesnya, butir ini dikatakan baik jika nilai ci tidak lebih dari 0,25.
ICC merupakan kurve monoton naik, semakin meningkat tingkat kemampuan
peluang untuk menjawab suatu item meningkat pula. Bentuk ICC tergantung pada model
pengukurannya. ICC menyajikan grafik yang menunjukkan peluang menjawab benar pada
item dari peserta dengan tingkat kemampuan tertentu (Embretson dan Reise, 2000).
14
Gambar 1 memperlihatkan contoh plot ICC untuk model 3 PL (Hambleton dan
Swaminathan, 1985:39) dengan kemampuan pada absis dan peluang menjawab benar pada
ordinat. ICC pada gambar 1, menunjukkan parameter tingkat kesulitan, b sebesar 0,50.
Parameter daya beda, a sebesar 1,5. Dan parameter tingkat menebak, c sebesar 0,15.
Gambar 2. ICC model 3 PL
Parameter tingkat kesulitan memiliki skala sama dengan tingkat kemampuan ( ),
dengan nilai berkisar antara -4 sampai +4. Dalam ICC, parameter tingkat kesulitan
merupakan titik pada skala kemampuan yang menunjukkan nilai maksimum dari
kemiringan ICC (Hambleton dan Swaminathan, 1985:38). Pada model IRT 3 PL,
maksimum kemiringan berada pada p = (1 + c)/2. Sedangkan pada 2 PL dan 1 PL
maksimum kemiringan berada pada p = 0,5, karena c sama dengan nol.
b). Daya beda (b), Tingkat kesukaran (a) dan Tingkat Menebak (c)
Dalam Item Response Theory (IRT) keberadaan Daya beda (b), Tingkat kesukaran
(a) dan Tingkat Menebak (c) dinamakan Fungsi Informasi Butir. Fungsi informasi butir
(item information functions) merupakan suatu metode untuk menjelaskan kekuatan
suatu butir pada perangkat soal dan menyatakan kekuatan atau sumbangan butir soal
dalam mengungkap kemampuan laten (latent trail) yang diukur dengan tes tersebut.
Dengan fungsi informasi butir diketahui butir mana yang cocok dengan model
sehingga membantu dalam seleksi butir soal. Secara matematis, fungsi informasi butir
didefinisikan sebagai berikut.
ii
i
iQP
P
I
2
………………………………………………………(5)
15
keterangan :
iI : fungsi informasi butir ke-i
i : 1,2,3,...,n
iP : peluang peserta dengan kemampuan θ menjawab benar butir i
iP : turunan fungsi iP terhadap θ
iQ : peluang peserta dengan kemampuan θ menjawab salah butir i
Fungsi informasi butir untuk model logistik tiga parameter dinyatakan oleh
Birnbaum (Hambleton & Swaminathan, 1985: 107) dalam persamaan berikut.
22
exp1exp
189,2
iiiii
iii
bDabDac
caI
……………….. (6)
keterangan :
iI : fungsi informasi butir i
: tingkat kemampuan subjek
ia : parameter daya beda dari butir ke-i
ib : parameter indeks kesukaran butir ke-i
ic : indeks tebakan semu (pseudoguessing) butir ke-i
e : bilangan natural yang nilainya mendekati 2,718
Berdasarkan persamaan fungsi informasi di atas, maka fungsi informasi
memenuhi sifat: (1) pada respons butir model logistik, fungsi informasi butir
mendekati maksimal ketika nilai bi mendekati 0. Pada model logistik tiga parameter
nilai maksimal dicapai ketika 0 terletak sedikit di atas bi dan indeks tebakan semu
butir menurun; (2) fungsi informasi secara keseluruhan meningkat jika parameter
daya beda meningkat.
Fungsi informasi tes merupakan jumlah dari fungsi informasi butir-butir tes
tersebut (Hambleton & Swaminathan, 1985: 94). Berkaitan dengan hal ini, nilai
fungsi informasi perangkat tes akan tinggi jika butir-butir penyusun tes mempunyai
iungsi informasi yang tinggi pula. Fungsi informasi perangkat tes (l(0)) secara
matematis dapatdi definisikan sebagai berikut.
16
n
i
iII1
....................................................................................... (7)
Nilai-nilai indeks parameter butir dan kemampuan peserta merupakan hasil
estimasi. Karena merupakan hasil estimasi, maka kebenarannya bersifat probabilistik
dan tidak terlepaskan dengan kesalahan pengukuran. Dalam teori respons butir,
kesalahan pengukuran standar (Standard Error of Measurement, SEM) berkaitan erat
dengan fungsi informasi. Fungsi informasi dengan SEM mempunyai hubungan yang
berbanding terbalik kuadratik, semakin besar fungsi informasi maka SEM semakin
kecil atau sebaliknya (Hambleton, Swaminathan, & Rogers, 1 991, 94). Jika nilai
fungsi informasi dinyatakan dengan I(θ) dan nilai estimasi hubungan keduanya,
menurut (199.l :94) dinyatakan dengan SEM, maka Hambleton, Swaminathan, &
Rogers disajikan grafik nilai fungsi informasi standar suatu butir dengan parameter
I
SEM1ˆ …………………………………………………….. (8)
b. Prosedur Pemilihan Item Awal (Starting Rule)
Computerized adaptive testing (CAT) dirancang untuk setiap individu peserta tes
(Wiener, 1990). Dalam prosedur pemilihan item awal, peserta tes akan diberi satu set soal
yang memenuhi spesifikasi rancangan tes (kisi-kisi) dan biasanya sesuai dengan tingkat
kemampuan setiap individu. Tes dimulai dengan soal-soal yang tidak terlalu sukar atau
tidak terlalu mudah. Jika tidak ada performance awal mengenai kemampuan awal peserta
tes maka CAT dapat dimulai dengan memilih butir soal dengan tingkat kesukaran yang
sedang (Mills, 1999: 123).
Setiap peserta tes menjawab soal dan komputer akan memberikan skor. Jawaban
terhadap soal tersebut dan akan menentukan soal yang akan ditampilkan oleh komputer
selanjutnya. Setiap menjawab soal dengan benar, peserta tes akan diberi soal yang lebih
sukar. Sebaliknya, bila menjawab salah, komputer akan memilihkan soal yang lebih
mudah.
Urutan soal disajikan tergantung pada jawaban terhadap soal-soal sebelumnya dan
pada kisi-kisi tes. Dengan kata lain, komputer diprogram untuk memberikan soal yang
sesuai dengan kisi-kisi tes, sekaligus secara terus menerus mencari soal-soal yang tingkat
kesulitannya sesuai dengan tingkat kemampuan peserta ujian. Dalam hal ini peserta ujian
harus menjawab semua soal. Keuntungannya, pada setiap layar hanya ditampilkan satu
butir soal, sehingga peserta tes dapat berkonsentrasi untuk menjawab soal tersebut. Setelah
17
menjawab soal, peserta ujian tidak akan dapat mengulang soal-soal sebelumnya dan
mengganti jawabannya.
c. Prosedur Pemilihan Item Selama Pelaksanaan Tes
Salah satu prosedur penting dalam CAT adalah pemilihan utem selama pelaksanaan
tes. Prosedur seleksi atau pemilihan item menyangkut beberapa tahap kerja. Prosedur yang
paling sederhana meliputi dua tahap (Azwar, 2003:55), yang akan dijelaskan berikut ini. 1)
Tahap pertama, analisis dan seleksi item berdasarkan evaluasi kualitatif. Evaluasi ini
melihat a) apakah item yang ditulis sesuai dengan blue-print dan indikator perilaku yang
hendak diungkapnya? b) apakah item telah ditulis sesuai dengan kaidah penulisan yang
benar? c) melihat apakah item-item yang ditulis masih mengandung sosial desirability
yang tinggi? 2) Tahap kedua, adalah prosedur seleksi item berdasarkan data empiris (data
hasil uji coba item pada kelompok subjek yang karakteristiknya setara dengan subjek yang
hendak dikenai pengukuran) dengan melakukan analisis kuantitatif terhadap parameter-
parameter item. Pada tahap ini paling tidak dilakukan seleksi item berdasarkan daya
pembeda, tingkat kesulitan item dan tingkat menebak (guessing).
Salah satu metode untuk melakukan prosedur pemilihan item selama pelaksanaan
tes dalam software CAT yang berdasar pada daya pembeda, tingkat kesulitan item dan
tingkat menebak (guessing) adalah sebuah segitiga pohon keputusan (a triangle decision
tree / TDT) (Phankokkruad. 2008: 656). Segitiga pohon keputusan adalah model keputusan
yang berbentuk grafik. Sebuah titik menunjukkan parameter tes sebaliknya ranting
manunjukkan target paramater tes berikunya. Setiap titik hanya ada dua ranting untuk anak
titik dan berisi tiga parameter IRT yaitu tingkat kesulitan, daya beda dan tingkat menebak.
Ranting yang keluar dari titik ada dua yaitu ranting ke arah kiri dan ranting kearah kanan.
Arah ranting ke kanan bila peserta tes menjawab pertanyaan dengan benar dan arah ranting
ke ke kiri bila peserta tes menjawab pertanyaan item yang salah. Gambar dari Segitiga
pohon keputusan
1
2 3
4 5 6 7
18
Dengan 1,1,,1 jijiji bbb dan jiii bbb ,2,1, ...
Komulatif fungsi fitness:
jicjibjiai ccwbbwaawf 22
aw = bobot dari tingkat kesukaran (a)
bw = bobot dari daya beda (b)
cw = bobot dari tingkat menebak (c)
Maka fungsi fitness adalah
1
1
n
i
ifF
mm FF 1
d. Prosedur Untuk Mengakhiri Tes (Stopping Rule)
Keputusan mengenai kapan harus menghentikan tes CAT adalah elemen yang paling
penting. Jika tes ini terlalu pendek, maka perkiraan kemampuan peserta tes tidak akurat.
Jika tes ini terlalu panjang, maka banyak waktu dan beaya yang terbuang dan
menyebabkan hasil tes tidak valid. Tes CAT berhenti bila: (1) item bank telah habis. Ini
terjadi biasanya dengan bank item kecil ketika setiap item telah diberikan kepada
pengambil tes; (2) seluruh item tes telah diberikan. Jumlah item tes maksimum yang
diperbolehkan untuk diberikan kepada pengambil tes biasanya jumlah item yang sama
seperti pada paper pencils tet; (3) Kemampuan mengukur diperkirakan dengan ketepatan
yang cukup. Setiap respons menyediakan lebih banyak informasi statistik tentang
kemampuan mengukur, meningkatkan presisi dengan menurunkan standar error dengan
pengukuran. Bila ukuran cukup tepat, pengujian berhenti. Error standar yang digunakan
adalah 0,2; (4) Sebuah jumlah minimal item telah diberikan; (5) Setiap kompetensi tes
telah dikerjakan dengan benar; (6) waktu telah habis.
e. Estimasi Kemampuan Peserta tes
Langkah terakhir dalam pengembangan CAT adalah estimasi kemampuan peserta
tes. Banyak metode yang bisa digunakan dalam estimasi kemampuan peserta tes. Salah
satu metode adalah menggunakan Metode Maximum Likelihood (MLE). MLE
menghasilkan estimasi tingkat kemampuan relatif tidak bias (unbiased)
19
1). Maximum Likelihood
Bila seorang peserta tes dengan tingkat kemampuan θ menjawab tes yang
berisi sebanyak n butir soal pilihan ganda dengan parameter butir (tingkat kesukaran, daya
beda dan guessing) yang sudah diketahui dan sudah diestimasi sebelumnya maka peluang
bersama dari peserta tes sebagai nUUUUp ...., 3,21 . Dalam praktik pengukuran maka
nuuuu ...., 3,21 adalah jawaban dari peserta tes. iu =1 jika jawaban peserta tes adalah benar
dan iu =0 maka jawaban peserta tes yang salah .
Jika asumsi independensi local dipenuhi maka fungsi kemungkinan maximum
likelihood adalah
nn uUuUuUuUpL ....,)( 33,2,211
=
n
i
u
i
u
iii QP
1
1)()( dimana i=1, 2, 3, …n untuk -~ < θ<~ ........
3. Item Pilihan Ganda
Item pilihan ganda (multiple choice) merupakan salah satu bentuk item dari metode
selected response yang paling sering digunakan dan dipilih untuk berbagai keperluan
pengujian. Secara umum item pilihan ganda terdiri dari dua bagian, bagian pertama disebut
stem adalah bagian pokok yang berisi informasi dan permasalahan atau pertanyaan. Bagian
kedua, berupa sejumlah pilihan jawaban (option) yang disediakan untuk menjawab
permasalahan atau pertanyaan stem.
Item pilihan ganda menyediakan sejumlah pilihan tetapi hanya satu jawaban pilihan
jawaban yang benar. Sedangkan yang lain berfungsi sebagai pengecoh (distractors). Model
item pilihan ganda dengan format semacam ini dikategorikan sebagai model konvensional
(Haladyna dkk. 2002; oosterhof: 200)
Tes bentuk pilihan ganda adalah tes yang yang jawabannya dapat diperoleh
dengan memilih alternatif jawaban yang telah disediakan. Dalam tes pilihan ganda ini,
bentuk tes terdiri atas: pernyataan (pokok soal), alternatif jawaban yang mencakup
kunci jawaban dan pengecoh. Pernyataan (pokok soal) adalah kalimat yang berisi
keterangan atau pemberitahuan tentang suatu materi tertentu yang belum lengkap dan
harus dilengkapi dengan memilih altematif jawaban yang tersedia. Kunci jawaban adalah
salah satu altematif jawaban yang merupakan pilihan benar yang merupakan jawaban
yang diinginkan. Sedangkan pengecoh adalah alternatif yang bukan merupakan kunci
jawaban (Mardapi. 2004: 75).
20
Pedoman utama dalam pembuatan butir soal bentuk pilihan ganda adalah:
1). Pokok soal harus jelas
2). Pilihan jawaban homogen dalam arti isi.
3). Panjang kalimat pilihan jawaban relatif sama.
4). Tidak ada petunjuk jawaban benar
5). Hindari mengggunakan pilhan jawaban: semua benar atau semua salah.
6). Pilihan jawaban angka diurutkan.
7). Semua pilihan jawaban logis
8). Jangan menggunakan negatif ganda.
9). Kalimat yang digunakan sesuai dengan tingkat perkembangan peserta tes
10). Bahasa Indonesia yang digunakan baku.
11). Letak pilihan jawaban benar ditentukan secara acak.
Dalam soal pilihan ganda, peserta tes hanya memilih jawabannya tanpa
memberikan alasan mengapa jawaban tersebut dipilih. Butir tes berbentuk pilihan ganda
biasanya diberi skor 1 bila jawaban benar dan diberi skor 0 bila jawaban salah sehingga
butir tes berbentuk pilihan ganda termasuk butir tes dikotomus.
B. Computerized Adaptive Test (CAT) sebagai Sistem Informasi
Sistem informasi yang terkomputerisasi akan melalui siklus-siklus: 1). Identifikasi
Masalah; 2). Penentuan syarat; 3). Analisis kebutuhan sistem; 4). Perancangan sistem; 5).
Implementasi dan mendokumentasikan; 6). Testing dan perbaikan sistem; 7). Evaluasi
sistem (Kendal & Kendal, 2002: 11). CAT sebagai sebuah program adalah termasuk
sebagai software sistem informasi sehingga perlu dipilih dan dilakukan uji kelayakannya.
Program dapat dipilih dengan pertimbangan: 1). Mendapat banyak dukungan dari
lembaga atau pemakai; 2). Mampu meningkatkan kualitas layanan; 3). Basis data yang
dibuat dapat dipergunakan untuk berbagai keperluan yang banyak; 4). Meningkatkan
proses layanan, dan 5). Mengurangi kesalahan. (Kendal & Kendal, 2002:62). Program
bernilai layak adalah jika dipakai memenuhi kriteria: 1). Kelayakan teknis; 2). Kelayakan
ekonomis dan 3). Kelayakan operasionalitas
Kelayakan teknis, merujuk pada pertanyaan apakah sumber daya teknis yang ada
bisa ditingkatkan sesuai keperluan. Apakah ada teknologi yang memenuhi spesiflkasi yang
diinginkan? Mengenai kelayakan ekonomis, terkait dengan waktu yang dibutuhkan oleh
program, dan nilai uang yang diinvestasikan untuk mengembangkan program terhadap
21
kemanfaatan yang diperoleh. Di samping itu, biaya operasional juga merupakan faktor
penting yang harus dipertimbangkan. Kelayakan operasional, sangat bergantung pada
sumber daya manusia yang tersedia dan kelangsungan program setelah diinstal. Kriteria
penerimaan adalah adanya permintaan sistem, efektif dan kemudahan operasional.
Dalam penelitian ini hasil software berupa produk CAT memenuhi kriteria-kriteria
yang telah disebutkan di atas. Data untuk menguji pemilihan dan kelayakan dapat
dilakukan melalui wawancara mendetail dan angket terhadap sejumlah pengguna. Grafik
dan diagram dapat digunakan untuk membantu memperkirakan waktu dan beban pekerjaan
yang dilakukan. Untuk penggambaran program yang dihasilkan dapat dilakukan melalui
pembuatan dengan bantuan grafis diagram aliran data atau prototyping (pemodelan) yang
memuat unit antarmuka sistem dengan pengguna.
CAT sebagai sebuah software sistem informasi dalam penelitian ini tak lepas dari
ketentuan-ketentuan tersebut di atas. Untuk membangun produk software yang efektif dan
berkualitas diperlukan perancangan yang baik mengenai basis data, tampilan output, input,
antarmuka pengguna, dan prosedur masukan data yang akurat
C. Layout Antarmuka Pemakai
Layout antarmuka adalah halaman informasi yang dikirimkan kepada para
pengguna melalui sistem informasi yang dihasilkan oleh peralatan (komputer) (Santoso, I.
2004). Wujud layout dapat berupa data gratis, teks maupun bilangan yang tersimpan dalam
bentuk hard copy laporan tercetak, dan soft copy berupa besaran elektrik pada monitor,
penyimpan elektronik, media magnetik maupun optik.
Pengembangan CAT dalam penelitian ini lebih mengutamakan penampilan output
di layar display. Disain layar yang disarankan oleh Kendal & Kendal, (2002: 28) adalah
sebagai berikut: 1). Buat layar yang sederhana (layout dan pewarnaan); 2). Buatlah
presentasi layar yang tetap konsisten; 3). Tentukan navigasi untuk pengguna se-efektif
mungkin; 4). Ciptakan layar yang menarik.
Produk software tidak hanya dilihat dari segi tampilan, tetapi terkait juga dengan isi
tampilan yang meliputi: Isi, Teks, Grafik, Presentasi dan (Kendal & Kendal, 2002:40).
Isi perlu mempertimbangkan: 1). Mengandung informasi yang penting; 2). Ada
ketersediaan "link" dengan halaman yang lain; 3). Ada bagian untuk saran-saran; 4). Ada
bagian untuk penawaran; 5). Ada kegiatan interaktif yang lain; 6). Gunakan gambar-
22
gambar metafora dan hindari gambar kartun; 7). Sesuaikan dengan pengguna yang dituju;
8). Gunakan bahasa yang tepat.
Teks perlu mempertimbangkan: 1). Memiliki sebuah judul; 2). Gunakan kata-kata
yang berarti pada kalimat pertama yang muncul; 3). Gunakan kata-kata sedemikian rupa
untuk kemudahan browser; 4). Gunakan model tulisan yang jelas untuk heading, sub-
heading, dan paragraf pertama.
Dalam Grafik, perlu pembuatan grafik yang efektif yaitu: 1). Gunakan format
garnbar yang umum, GIF, JPEG atau BMP, namun dengan ukuran masuk akal; 2). Buat
grafik yang profesional; 3). Buat latar belakang yang sederhana; 4). Gunakan garis
horisontal sebagai penanda batas halaman; 5). Gunakan bullet, tombol navigasi berwarna,
dan bentuk kursor yang berbeda untuk menuju halaman yang lain; 6). Gunakan tiga aturan
klik pada mouse.
Presentasi adalah cara merancang layar tampilan antarmuka agar menarik.
Presentasi yang menarik mempunyai beberapa kriteria diantaranya: 1). Buat desain
tampilan yang menarik; 2). Dapat diakses (down load) dengan cepat; 3). Gunakan ukuran
huruf yang sesuai dan pewarnaan yang serasi; 4). Gunakan garnbar-gambar dan tombol-
tombol yang menarik untuk jalur-jalur akses yang diinginkan; 5). Gunakan gambar grafts
yang sarna dan konsisten dari sejumlah halaman; 6). Hindari penggunaan animasi yang
berlebihan, karena dapat melelahkan penglihatan, dan 7). Sediakan area di sisi halarnan
utama untuk tombol-tombol menuju (hyperlink) ke halarnan yang lain.
Navigasi adalah arah kontrol untuk akses informasi yang diinginkan. Hal-hal yang
perlu diperhatikan dalam pembuatan navigasi diantaranya: 1). Buat perbedaan penunjuk
manakala melintas pada tombol navigasi yang disediakan; 2). Munculkan juga keterangan
singkat target yang dituju saat penunjuk melintas di tombol navigasi; 3) Buat navigasi
yang memungkinkan agar pemakai dapat kembali dengan nyaman jika terjebak pada
halaman yang tidak diinginkan.
D. Pengelolaan Sistem Basis Data.
Pengelolaan sistem basis data merupakan jembatan perantara pengguna dengan
sistem basis data. Menurut Sutanta (1996:24) pengelolaan sistem basis data adalah suatu
perangkat lunak sistem yang memberikan fasilitas untuk melakukan fungsi pengaturan,
pengawasan, pengendalian, pengelolaan dan koordinasi terhadap semua proses yang terjadi
pada sistem basis data. Basis data menurut Kroenke (1995:14) sebagai kumpulan terpadu
23
mengenai data yang terstruktur atas hubungan data alami yang menyediakan semua
keperluan akses masing-masing unit data yang diperlukan pemakai yang berbeda-beda.
Basis data adalah sekumpulan data yang saling berhubungan dan disimpan bersama dengan
menghindarkan redundansi namun bersifat independent dan dapat diakses oleh pengguna
untuk memenuhi keperluan berbagai aplikasi.
Dalam penelitian ini yang dimaksud dengan basis data adalah sekumpulan data
materi testing yang saling berhubungan dan disimpan bersama dengan menghindarkan
redundansi namun bersifat independent dan dapat diakses oleh pengguna yaitu
administrator, guru dan siswa untuk memenuhi berbagai keperluan aplikasi pengukuran.
Pengolahan model evaluai pada sistem basis data dengan menggunakan bantuan
komputer memiliki berbagai kelebihan dibanding jika dilakukan secara manual. Kroenke
(1995) menyebutkan bahwa operasi-operasi dasar basis data me1iputi: 1. Pembuatan basis
data baru (create data base), 2. Penghapusan basis data (drop data base), 3. Pembuatan
tabel basis data (create table), 4. Penghapusan tabel basis data (drop table), 5.
Penambahan/pengisian basis data (insert data), 6. Pengambilan/ pencarian data
(retrieve/search), 7. pengubahan data (update), 8. Penghapusan data (delete).
Pengelolaan dan pemanfaatan dengan model sistem basis data secara komputer
memiliki keuntungan (Kendak & Kendal, 2002), sebagai berikut: 1. Kecepatan dan
kemudahan (speed), 2. Efisiensi ruang penyimpan (space), 3. Keakurasian (acuracy), 4.
Ketersediaan (availability), 5. Kelengkapan (completeness), 6. Keamanan (security), 7.
Kebersamaan pemakaian (sharability).
Bangunan model evaluasi dengan sistem basis data secara lengkap diperlukan
adanya komponen-komponen pembangun. Setiap komponen merupakan satu kesatuan
yang tidak dapat dipisahkan. Menurut Kroenke (1995), komponen utama pembangun
sistem tersebut adalah: 1. Perangkat keras (hardware), 2. Sistem operasi (operating
system), 3. Basis data (data base), 4. Sistem pengelolaan basis data (data base
management system), 5. Pemakai (user), 6. Program aplikasi (aplication program).
E. Kerangka Pikir
Berdasar kajian teori tersebut di atas, maka kerangka pikir penelitian ini adalah sebagai
berikut:
Salah satu cara untuk mengevaluasi proses pembelajaran dengan menggunakan tes.
Sebagian besar bentuk tes selama ini menggunakan metode papper and pancil.
24
Perkembangan terkini, bentuk tes yang menggunakan bantuan teknologi komputer yang
disebut Computerized Adaptive Testing (CAT). Penggunaan CAT dalam tes memiliki
banyak kelebihan dibanding metode papper and pencils. Dalam pembuatan program CAT,
bank soal yang disiapkan telah dilakukan kalibrasi untuk mengetahui tingkat kesukaran,
daya beda dari butir soal dan tingkat menebak (guessing). Butir soal yang baik adalah yang
memiliki tingkat kesukaran antara 0.0 – 2.0, memiliki daya beda antara -2.0 – 2.0 dan
tingkat menebak = k
1, dengan k = banyak opsi jawaban.
Bank soal yang terdiri dari butir-butir soal yang baik akan menjadi pertimbangan untuk
melakukan prosedur pemilihan item awal, biasanya item tes awal memiliki tingkat
kesukaran, daya beda dan tingkat menebak yang sedang. Hal ini dilakukan bila peserta tes
yang memiliki kemampuan ektrim tinggi apabila diberi item tes awal yang rendah maka
akan memerlukan waktu yang lama untuk mencari soal yang sesuai denga kemampuannya.
Dari respon peserta dalam menjawab benar atau salah dilakukan estimasi kemampuan
menggunakan metode Maximum Likelihood. Dari hasil estimasi kemampuan ini maka
software CAT yang berbasis daya beda (b), tingkat kesukaran (a) dan tingkat menebak (c)
dalam prosedur pemilihan item selama pelaksanaan tes akan mengambil soal berikutnya
dengan pertimbangan kemampuan yang dimilikinya. Kemudian dilakukan metode untuk
penskoran tes.
Langkah berikutnya dilakukan prosedur untuk mengakhiri tes agar tes bisa lebih
efisien. Langkah terakhir dalam pembuatan program CAT adalah Estimasi Kemampuan
Peserta tes, estimasi kemampuan peserta tes juga menggunakan metode Maximum
Likelihood. Program Software CAT dibuat menggunakan bahasa pemograman Delphi.
Software basis data menggunakan My SQL
C. Pertanyaan Penelitian
Berdasar uraian di atas maka pertanyaan penelitiannya sebagai berikut:
1. Bagaimana kualitas butir-butir test pada bank soal dalam pengembangan software
CAT?
2. Bagaimana software CAT yang berbasis daya beda (b), tingkat kesukaran (a) dan
tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes.?
3. Bagaimana mencari estimasi kemampuan peserta tes menggunakan metode
Maximum Likelihood (MLE) dalam pengembangan software CAT?
25
BAB III
METODE PENELITIAN
A. Model Pengembangan
Dalam penelitian mengembangkan program software CAT yang berbasis daya beda
(b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item selama
pelaksanaan tes menggunakan pendekatan penelitian Research and Development (R&D).
Ada dua tahapan dalam pelaksanaan yaitu: tahap pengembangan produk dan tahap
implementasi produk.
Pada tahap pertama dalam pengembangan produk, langkah yang diambil mengikuti
yang dikemukakan oleh Kendal dan Kendal serta Pressman dan telah dilengkapi oleh
Rolston (1988: 138) dengan langkah-langkah seperti gambar berikut ini:
Dalam tahap 1 pemilihan dan analisis kebutuhan system yang akan dilakukan
adalah pengumpulan informasi yang berfungsi untuk need assessment sebagai desain
penyusunan model. Berdasarkan informasi yang terkumpul dibuat prototipe perangkat
lunak. Proses kembali ke pemilihan dan analisis kebutuhan jika dalam pengembangan
prototipe ada kekurangan informasi. Langkah ini dinamakan PROBLEM REVISION.
Pada langkah ini dilakukan terus menerus untuk memperoleh langkah yang
representative. Langkah akan berlanjut ke langkah berikutnya apabila ruang lingkup
permasalahan yang diselesaikan telah terpenuhi.
Langkah kedua dalam perancangan logaritma dilakukan pembuatan sistematika
kerja program perangkat lunak (software) yang berdasarkan langkah pertama. Dengan
langkah pada algoritma kemudian menerjemahkan algoritma ke dalam kode program. Pada
langkah kedua ini akan kembali ke langkah perancangan algoritma apabila terdapat kode
program yang tidak sesuai dengan algoritma. Langkah kedua ini dinamakan
FORMALISM REVISION.
Proses ini juga bisa menuju ke langkah pertama bila terdapat informasi yang belum
lengkap dan kurang sesuai dengan langkah pada langkah pertama. Proses pada langkah
kedua ini akan menuju ke langkah ketiga bila target telah terpenuhi yaitu mendapatkan
sebuah program yang mampu digunakan untuk menyelesaikan masalah.
Langkah ketiga pengujian perangkat lunak (debugging) yaitu langkah untuk
menemukan kesalahan yang mungkin terjadi. Ada tiga kesalahan yang mungkin terjadi
26
yaitu: 1) Syntax error (kesalahan kalimat), 2). Run time error (kesalahan saat dijalankan),
dan 3). Logic error (kesalahan fungsi dan hasil dari penalaran logika). Dari langkah ini
dijadikan dasar proses perbaikan dan penyempurnaan program. Proses ini akan kembali ke
pengujian program jika masih ada kesalahan yang menyebabkan program belum berfungsi
seperti yang diharapkan. Langkah ketiga ini dinamakan EVOLUTIONARI REVISION.
Proses akan kembali ke langkah kedua (Formalism revision) jika ada kesalahan
yang disebabkan oleh algoritma dan penulisan kode program yang belum sesuai dengan
langkah ke dua. Atau bahkan akan ke langkah pertama (problem revision) apabila ada
kesalahan algoritma dank ode program yang kurang sesuai yang disebabkan oleh adanya
algoritma dan kode program yang belum sesuai pada langkah pertama.
Langkah-langkah ini adalah berbentuk siklus hidup untuk mengembangkan
software CAT . Dalam siklus-siklus ini mengalami proses berulang jika pada langkah
tertentu ada kesalahan. Proses akan berulang pada bagian yang ditemukan kesalahan.
Siklus akan bergerak terus menerus sehingga diperoleh perangkat lunak yang secara
operasional dapat berfungsi sesuai dengan tujuan yang telah ditentukan.
Tahap kedua adalah tahap pengembangan, dalam tahap proses pengembangan
menerapkan produk dalam situasi kelas yang sesungguhnya. Proses ini mengikuti langkah
dari Borg & Gall (1983: 774-776)
1. Research and information collecting yaitu melukan review literatur, observasi
kelas yang akan dijadikan implementasi dan mempersiapkan pelaksanaan.
2. Planning yaitu mendefinisikan skill yang akan diamati, menentukan urutan-urutan
tujuan yang hendak dicapai dan menguji
3. Devolop preliminary from product yaitu mempersiapkan materi, instruksional
yang akan diberikan (memilih, mengorganisasi, mengemas materi, buku pegangan,
peralatan evaluasi untuk mengukur keberhasilan tujuan.
4. Preliminary field testing yaitu menggunakan produk dalam situasi kelas yang
sebenarnya
5. Main product revision yaitu perbaikan product berdasarkan informasi hasil analisis
data
6. Main field testing yaitu menggunakan product hasil percobaan di kelas
7. Operational product revision yaitu melakukan kembali proses perbaikan dan
penyempurnaan product berdasarkan masukan-masukan dan analisis data yang
terkumpul.
27
8. Operational field testing yaitu menggukan kembali hasil product yang telah
diperbaiki
9. Final product revision yaitu memperbaiki product akhir dengan diperoleh product
yang lebih sempurna
10. Desimination and implementation yaitu melaporkan hasil product akhir yang telah
disempurnakan dan disebarluaskan untuk lingkup yang leih luas.
B. Uji Coba Produk
Uji coba produk software CAT yang berbasis daya beda (b), tingkat kesukaran (a)
dan tingkat menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes akan
dilakukan beberapa kegiatan sebagai berikut:
1. Desain Uji Coba
Uji coba dilakukan setelah software CAT jadi kemudian dilakukan uji coba kepada
mahasiswa baru STAIN Salatiga tahun akademik 2010/2011 dalam rangka uji coba
dalam plecement tes SIBA (Studi Intensif Bahasa Arab)
2. Subyek Coba
Subyek coba adalah mahasiswa baru STAIN Salatiga tahun akademik 2010/2011
dalam rangka uji coba dalam plecement tes SIBA (Studi Intensif Bahasa Arab)
C. Tempat dan Waktu Penelitian
Penelitian ini adalah pengembangan perangkat lunak software CAT berbasis daya
beda (b), tingkat kesukaran (a) dan tingkat menebak (c) dalam prosedur pemilihan item
selama pelaksanaan tes dilakukan di:
1. Tempat penelitian (pengembangan software): Laboratorium Komputer Sekolah
Tinggi Agama Islam Negeri (STAIN) Salatiga
2. Tempat penelitian (implementasi software): STAIN Salatiga.
3. Waktu penelitian: 6 bulan (Juli – Desember 2010).
D. Sumber Data Penelitian
Sumber data yang dilibatkan dalam penelitian ini meliputi: 1. Bank soal ujian
plecemen test SIBA STAIN Salatiga; 2. Uji kelayakan, dan evaluasi produk yaitu: ahli
media, dan teman sejawat (programmer ahli)
28
E. Instrumen Pengumpulan Data Penelitian
Instrument yang digunakan untuk mengumpulkan data dalam penelitian meliputi:
1. Lembar observasi identifikasi kebutuhan
2. Lembar observasi kelayakan produk (pengujian Internal)
3. Lembar evaluasi produk (pengujian eksternal)
Lembar evaluasi produk (pengujian eksternal) meliputi:
a. Validasi produk
b. Verifikasi kriteria produk standar
c. Validasi standar produk
Keterangan: beri nomor dengan ketentuan 1=kurang, 2=cukup, 3=baik, 4=amat
baik
Alat dan bahan yang digunakan dalam penelitian dan pengembangan CAT ini
meliputi: 1). Satu unit komputer, untuk membuat software CAT; 2). Scanner, untuk
pengambilan data gambar dan hasil respon peserta tes; 3). Camera digital Handycam untuk
pengambilan gambar hidup yang diperlukan bagi program; 4). Printer, untuk mencetak
hasil-hasil kerja; 5). Perangkat lunak Delphi untuk membuat kode program; 6). Perangkat
keras pendukung: flash disk dan CD.
F. Teknik Analisis Data
Teknik analisis data yang digunakan pengembangan software CAT ini
menggunakan teknik analisis deskriptif evaluatif. Penelitian ini akan menguji kelayakan
produk software yang digunakan untuk mengevaluasi kemampuan peserta menggunakan
software CAT software CAT berbasis daya beda (b), tingkat kesukaran (a) dan tingkat
menebak (c) dalam prosedur pemilihan item selama pelaksanaan tes. Pengujian dilakukan
untuk menentukan kelayakan, kemampuan dan kualitas produk.
29
DAFTAR PUSTAKA
Aiken, Lewis R. (1994). Psychological Testing and Assessment,(Eight Edition), Boston:
Allyn and Bacon.
Allen, M.J. & Yen, W.M. (1979). Introductions to measurement theory, Belmont, CA:
Wadsworth, Inc.
Ariel, A., Linden, W.J., & Veldkamp, B.P. (2006). A Strategi for Optimizing Item-Pool
Management. Journal of Educational Measurement. Vol. 43, No. 2, p. 85–96.
Crocker, L. & Algina, J. (1986). Introduction to Classical and Modern Test, Theory_. New
York: Holt, Rinehart and Winston, Inc.
Drasgow, F., & Buchanan, J.B. (1999). Innovations in Computerized Assesment. Lewrence
Erlbaum Associates, Publishers. New Jersey, London.
Flaugher, R. (2000). Item Pool. Dalam Wainer, H. (Ed), Computerized adaptive testing: A
Primer (2 nd ed.) hal. 37 - 59). Mahwah, NH: Lawrence Erlbaum Associates.
Forsyth, I. (1998). Teaching and Learning Material dan the Internet. Second Edition.
London: Bidles Ltd.
Haladyna, T.M., Downing, S. M., & Rodrigues, C. (2002). A Review of Multiple Choice
Item-Writing guidelines for Classroom Assesment. Aplied Measurement in
Education, 15(3) 309-334.
Hambleton, R.K. & Swaminathan, H. & Rogers, H.J. (1991). Fundamental of Item
response theory, Newbury Park, CA: Sage Publication Inc.
Hambleton, R.K. & Swaminathan, H. (1995). Item response theory, Boston, MA: Kluwer
Inc.
Hambleton, R.K. & Linden, W.J. (1997). Handbook of modern item response theory,
Springer, New York: Edwards Brothers Inc.
Hopkins, K.D., Stanley, J.C., & Hopkins, B.R. (1990). Educational and Psychological
Measurement and Evaluation. Sevent Edition. Prentice Hall. Ney Jersey.
Hullin, C.L., et.al. (1983). Item response theory: Application to psichologycal
measurement. Homewood, IL : Dow Jones-Irwin.
Keung, C., Chang, H.H., & Hua. (2003). Computerized Adaptive Testing : Comparison of
Three Content Balancing Methods. Journal of Technology, Learning, and Assesment.
Vol. 2, No. 5.
Kit, T.H., & Chang, H.H. (2001). Item Selection in Computerized Adaptive Testing :
Should More Discriminating Item be Used First? Journal of Education Measurement.
Vol. 38. No. 3. p:249 – 266.
Kroenke. J.M. (1975). Computer Database Organization. NJ: Prentice Hall International.
Inc.
Linden, W.J., & Veldkamp, B.P. (2004). Contraining Item Exposure in Computerized
Adaptive Testing. Journal of Educational and Behavioral Statistics. Vol. 29, No. 3 p.
273. Washington.
Linden, W.J., Ariel, A., & Veldkamp, B.P. (2006). Assembling a Computerized Adaptive
Testing Item Pool as a Set of Linear Tests. Journal of Educational Behavioral
Statistics. Vol. 31, No. 1, p. 81 – 99.
30
Linden, W.J. (2006). Optimal Assembly of Test With Item Sets. Computer Testing Report
99 - 04.
Mardapi, Djemari (2004). Penyusunan Tes Hasil Belajar. Yogyakarta: PPs UNY
Yogyakarta.
Masters, N.G. & Keeves, P.J. (1999). Advances in Measurement in Educational Research
and Assesment. Pergamon, An Imprint of Elsevier Science, New York.
Mehrens, W.A. & Lehmann, I.J. (1973). Measurement and evaluation in education and
psychology. New York : Hold, Rinehart and Wiston, Inc.
Mislevy, R.J. & Bock, R.D. (1990). BILOG 3 : Item analysis & test scoring with binary
logistic models. Moorseville: Scientific Software Inc.
Murshel, J.L. (1954). Successfull Teaching, Its Psychological Principles. USA: Mc. Graw
Hill Book Company Inc.
Lord, F.M. (1980). Applications of item response theory to practical testing problems,
Hillsdale, NJ : Erlbaum.
Nitko, Anthony J. (1996). Educational Assessment of Students, Second Edition. Ohio:
Merrill an imprint of Prentice Hall Englewood Cliffs.
Nunally, Jum C. (1978). Psychometric Theory, Second Edition. New Delhi: Tata
McGrawHill Publishing Company Limited.
Oosterhof, A. (2003). Developing and Using Classroom Assesment (3th ed). Upper Saddle
River: Merrill Prentice Hall
Popham, W. J. (1995). Classroom Assesment: what Teachers need to know. Boston: Allyn
and Bacon.
Reckase, M. D. (2003). Item pool design for computerized adaptive testing. Annual
meeting of the national council of measurement in education, Chicago, IL, April
2003.
Sutanta, E. (1996). Sistem Basis Data; Konsep Dan Peranannya Dalam Sistem Informasi
Manajemen. Yogyakarta: Andi Offset
Syaifudin Azwar. (2004). Reliabilitas dan validitas (Edisi 3). Yogyakarta: Pustaka Pelajar.
Wainer, H. (1990). Computerized Adaptive Testing : A Primer. New Jersey: Lawrence
Erlbaum Associates, Publisher
Weiss, D.J. (2004). Computerized Adaptive Testing for Effective and Efficient
Measurement in Counseling and Education. Measurement and Evaluation in
Counseling and Development. Vol. 37, pg. 70.
Yan, D., Lewis, C., & Stocking, M. (2004). Adaptive Testing With Regression Trees in
Presence of Multidimensionality. Journal of Educational and Behavioral Statistics,
Vol 29, No. 3. p.293 -316.
Yi, Q., Tiangyou, & Ban, C.J. (2001). Effects of scale transformation and test-termination
rule on the precision of ability estimation in computerized adaptive testing.
JEM., Vol. 38, Iss. 3; pg. 267, 26 pgs.