Hal. 1-19 Akurasi Relatif

1Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006

Akurasi Relatif Penyetaraan Skor Tes

Akurasi Relatif Penyetaraan Skor Tes untukSampel Berukuran 300 Ditinjau dari

Metode Penyetaraan dan Teknik Penghalusan

A.J.V Tumilisar*)

*) Guru SMAK Triana Jakarta Pusat

Penelitian

Latar Belakang Masalahoal-soal bentuk pilihan ganda telah mulaidikenal di Indonesia sejak tahun 1960-an(Suryadibrata, 1995: 15). Denganbanyaknya terbitan buku-buku berisi

kumpulan soal berbentuk pilihan ganda, makaguru pun cenderung dengan mudah memilih ataumengadaptasi soal-soal pilihan ganda itu. Hal ituterjadi, karena pada satu sisi membuat tesberbentuk pilihan ganda yang memenuhi syarat

Tujuan penelitian ini adalah untuk meneliti akurasi relatif penyetaraan skor tes untuk sampel berukuran 300,ditinjau dari metode penyetaraan dan teknik penghalusan. Teknik penghalusan yang digunakan adalahtanpa prapenghalusan (TP), prapenghalusan log-linier (LL) dan prapenghalusan kernel (KN), sedangkanmetode penyetaraan yang digunakan adalah metode penyetaraan ekipersentil berantai (EB) dan ekipersentilestimasi frekuensi (EEF). TP, KN, EB, dan EEF, serta rata-rata dari deviasi akar kuadrat rata-rata dari ekivalensi

ekipersentil )(RMSD sebagai kriteria akurasi relatif, dianalisis dengan menggunakan program yang dibuat,sedangkan LL dianalisis dengan program Log-Linear SPSS-X. Penelitian yang dilakukan di 18 SMU Negeri danSwasta di DKI Jakarta, pada siswa kelas III IPA semester pertama tahun ajaran 2002/2003, pada matapelajaran Fisika ini menyimpulkan bahwa akurasi relatif penyetaraan skor tes untuk sampel berukuran 300,yang menggunakan TP dan EEF, lebih tinggi dari TP dan EB.

Kata kunci: Skor tes, sampel, penyetaraan, akurasi relatif penyetaraan, metode penyetaraan, teknikpenghalusan.

The aim of this research is to study the relative accuracy of the test score equating for sample size of 300,observed from the equating methods and the smoothing techniques. The presmoothing techniques usedwere without presmoothing (TP), log-linear presmoothing (LL), and kernel presmoothing (KN), and whereasthe equating methods used were the chain equipercentile equating method (EB) and the frequencyestimation equipercentile equating method (EEF). TP, KN, EB, EEF, and the mean of the root mean square

deviation )(RMSD as the relative accuracy criteria, were calculated by tailored program, while LL wascalculated by Log-Linear SPSS-X program. The research conducted at 18 Private and State Senior HighSchools in DKI Jakarta, for the third year students from Natural Science Program, during the first semester2002/2003, in Physics concludes that only the relative accuracy of the test score equating for sample size

of 300, using (TP and EEF) was higher than using (TP and EB)

Abstrak

S

sebagai suatu tes yang baik, tidak mudah danmenyita waktu, namun pada sisi lainpenskorannya mudah dan cepat.

Pada kebanyakan program tes dalam skalabesar, penyusunan tes-tes yang setara merupakankegiatan yang sangat penting, untuk penangananyang cepat, apabila terjadi kebocoran tes, danuntuk membandingkan hasil tes dari peserta yangmenggunakan tes-tes yang berbeda itu. Hal yangsama juga dialami oleh sekolah sebagai suatuinstitusi pengelola pendidikan yang senantiasaberurusan dengan program tes, meskipunumumnya tidak dalam skala besar.

Pendahuluan

2 Jurnal Pendidikan Penabur - No.06/Th.V/Juni 2006


Seringkali dijumpai di sekolah, peserta tesyang berbeda harus diukur dengan tes yangberbeda, meskipun tes-tes itu belum tentu ekivalen,dan diharapkan dapat diukur sifat dan tuntutanpencapaian hasil yang dapat dibandingkan. Halini terjadi, misalnya pada situasi sekolah yangmemiliki beberapa kelas paralel yang diajar olehguru yang berbeda, atau ketika guru memberikanulangan susulan kepada siswa-siswa yang absenpada saat ulangan dilaksanakan. Meskipunsampai taraf tertentu kesetaraan beberapa tesdapat diupayakan pada saat menyusun tes-tes itusendiri, tetapi umumnya variasi taraf sukarantartes tetap terjadi (Swediati, 1997: 1). Jadisecara empirik membuat dua tes yang sama, tidakpernah secara sempurna paralel, terandalkan(reliable) atau unidimensional (Grounlund,1985:169).

Jika hasil tes itu digunakan untuk menentukankenaikan kelas atau penjurusan program,tentunya hal itu menjadi tidak adil karena tidakdilakukan ekivalensi skor untuk tes yang berbedaitu.

Masalah tersebut dapat diatasi denganmelakukan penyetaraan skor yang diperoleh daripeserta yang mengambil tes-tes itu. Proses statistik,dikenal sebagai metode penyetaraan (equating),telah dikembangkan untuk menangani masalahini.

Kenyataan menunjukkan bahwa sekolah-sekolah khususnya swasta, pada umumnya hanyaterdiri dari beberapa kelas paralel pada satutingkat kelas. Akibatnya, sulit diperoleh responsdari sejumlah besar peserta tes terhadap sejumlahbutir.

Untuk mengurangi efek dari kesalahanpenarikan sampel, sehingga distribusi skor tesyang dihasilkan mendekati distribusi skor tes daripopulasi, digunakan teknik penghalusan(smoothing) (Kolen, 1991: 261).

Pada kepentingan yang lebih luas,memetakan kecenderungan mutu siswa setiaptahun dengan membandingkan kinerja siswayang menggunakan tes-tes yang berbeda danantisipasi cepat ketika terjadi kebocoran tes, jugamerupakan suatu tuntutan.

Berdasarkan paparan yang telah dikemukakandalam latar belakang tersebut di atas, dapatdiidentifikasikan beberapa faktor yang didugaberpengaruh terhadap akurasi relatif penyetaraanskor tes pada sampel kecil.

Faktor-faktor yang perlu diteliti adalah,pengaruh: metode penyetaraan, teknikpenghalusan, prapenghalusan danpascapenghalusan, derajat penghalusan (degreesof smoothing) yang harus dipilih, ukuran sampelminimum, faktor distribusi kemampuan pesertates, jenis mata pelajaran, tes daya dan teskecepatan, desain pengumpulan data, panjangtes, dan bentuk tes, pada akurasi relatifpenyetaraan skor tes untuk sampel denganukuran tertentu.

Dari identifikasi masalah yang dikemukakan diatas, peneliti hanya membatasi masalah padapengaruh metode penyetaraan dan teknikpenghalusan pada akurasi penyetaraan skor tesuntuk sampel dengan ukuran tertentu.

Metode penyetaraan yang digunakan dalampenelitian ini ialah metode ekipersentil berantai(EB) dan metode ekipersentil estimasi frekuensi(EEF). Teknik penghalusan yang digunakandalam penelitian ini ialah tanpa penghalusan(TP), log-linier (LL) dan kernel (KN).

Penghalusan yang dilakukan adalahprapenghalusan pada distribusi skor tes, dansampel yang digunakan berukuran 300.

Desain pengumpulan data yang digunakanialah desain grup nonekivalen-tes jangkar. Tesjangkar yang digunakan adalah tes jangkarinternal. Banyak butir soal pada tes jangkaradalah 20% dari panjang tes.

Berdasarkan latar belakang, identifikasi, danpembatasan masalah yang telah dikemukakan diatas, masalah penelitian ini dirumuskan sebagaiberikut.

Apakah terdapat beda akurasi relatifpenyetaraan skor tes untuk sampel berukuran 300dengan:1. TP dan EB, dan LL dan EB?2. TP dan EB, dan KN dan EB?3. LL dan EB, dan KN dan EB?4. TP dan EEF, dan LL dan EEF?5. TP dan EEF, dan KN dan EEF?6. LL dan EEF, dan KN dan EEF?7. TP dan EB, dan TP dan EEF?8. LL dan EB, dan LL dan EEF?9. KN dan EB, dan KN dan EEF?

Pembatasan Masalah

Perumusan Masalah

Identifikasi Masalah



Tujuan penelitian ini adalah untuk menelitiapakah terdapat beda akurasi relatif penyetaraanskor tes untuk sampel berukuran 300 ditinjau daridua faktor: pertama, faktor teknik prapenghalusanyaitu TP, LL, dan KN; dan kedua, faktor metodepenyetaraan yaitu metode EB dan metode EEF.

Melalui penelitian ini diharapkan dapatdiketahui teknik prapenghalusan dan metodepenyetaraan manakah yang menghasilkanakurasi relatif penyetaraan skor tes terbaik, jikadilakukan pada sampel berukuran 300.

Pertama, manfaat teoritik. Dari sisi keilmuan,penelitian ini diharapkan dapat memberikansedikit kontribusi bagi perkembanganpengukuran dalam psikometrika, yang banyakmenggunakan statistika terapan, khususnya padapenyetaraan skor tes untuk ukuran sampeltertentu. Bagi peneliti pribadi dan para penelitilainnya, hasil penelitian ini dapat digunakansebagai landasan penelitian lanjutan, khususnyapada variabel-variabel yang diteliti, maupunvariabel lainnya yang lebih kompleks yangberpengaruh pada pengukuran akurasi relatifpenyetaraan skor tes untuk ukuran sampeltertentu.

Kedua, manfaat praktis. Hasil penelitian ini dapatdimanfaatkan oleh berbagai pihak yang terkaitdengan penyelenggaraan tes-tes atau ulangan-ulangan yang dilakukan secara berkala, misalnyaoleh: (1) sekolah, khususnya sekolah-sekolah yangjumlah peserta didiknya relatif tidak banyak, baiksecara mandiri atau bersama-sama, sehinggasekolah-sekolah dapat bekerja sama melakukanpengembangan tes-tes yang setara. Dengan

membandingan kinerja siswa yang menggunakantes-tes yang setara itu, pemutus kebijakan disekolah dapat memproyeksikan kecenderunganmutu sekolah setiap tahun ajaran berdasarkansuatu kriteria yang ditetapkan oleh sekolah, danmelakukan evaluasi program pengajaran guru,serta membuat keputusan atau kebijakan yangterkait dengan proses belajar mengajar maupunprogram evaluasi belajar; (2) guru, bukan sekedardituntut mampu menyusun soal berdasarkan isimateri ajar saja tetapi secara profesional mampumembuat kompilasi tes-tes yang dapat digunakanuntuk mengevaluasi kemampuan siswa padasetiap semester atau tahun ajaran berdasarkansuatu kriteria yang ditetapkan, dan ia mampumelakukan perlakuan pengajaran lebihprofesional dan bertanggung jawab. Dengandimilikinya kompilasi tes yang setara, padaakhirnya akan meringankan beban guru, ketikamelakukan tes-tes sub-sumatif dan sumatif; (3)siswa, pada gilirannya merasa memperolehperlakuan yang lebih adil. Apabila ia karena suatualasan yang dapat dipertanggungjawabkan, tidakdapat mengikuti ulangan umum atau ujian makaia dapat mengikuti ulangan dan ujian susulandengan tes yang setara, sehingga ia tidak merasadirugikan atau diuntungkan.

Skor TesNaga, menyatakan skor tes sebagai hasil koreksidari setiap butir yang dikerjakan peserta tes yangmenampilkan jawaban benar atau salah (Naga,1992: 20).

Sampel pada PenyetaraanSampel menurut Steel dan Torrie adalah bagiandari populasi, kadang-kadang mencakup seluruhpopulasi dan umumnya informasi dari sampeldigunakan untuk penarikan kesimpulan tentangpopulasi itu (Steel dan H. Torrie, 1991: 13).

Setiadi dalam penelitiannya terhadapestimasi parameter butir menyatakan bahwasampel yang relatif kecil berukuran 100 atau 200(Setiadi, 1997: 7), sedangkan Livingston danFeryok melakukan penelitian pada penyetaraanekipersentil estimasi frekuensi denganpenghalusan pada sampel berukuran 100 sampaidengan 3000 dan akurasi penyetaraan terjadipada sampel berukuran 300 (Livingston danFeryok, 1987: 9-10).

Tujuan Penelitian

Kegunaan Penelitian

Kerangka Teoretis

Melalui penelitian inidiharapkan dapat diketahuiteknik prapenghalusan dan

metode penyetaraan manakahyang menghasilkan akurasirelatif penyetaraan skor testerbaik, jika dilakukan pada

sampel berukuran 300.



Kesalahan PenyetaraanMenurut Kolen, ada beberapa tipe kesalahan yangakan mempengaruhi interpretasi hasil dariaplikasi metode-metode penyetaraan, yaitukesalahan penyetaraan acak (random equatingerror) dan kesalahan penyetaraan sistematik(systematic equating error) (Kolen, 1988: 34 35).

Kolen dan Brennan menyatakan bahwakesalahan penyetaraan acak, terjadi karena datadikumpulkan dari suatu sampel dan bukan dariseluruh populasi; sedangkan kesalahanpenyetaraan sistematik terjadi misalnya, asumsistatistikal pada metode penyetaraan dilanggaratau desain pengumpulan data tidak sesuaidiimplementasikan atau jika kelompok-kelompokpeserta tes yang digunakan untuk penyetaraansangat berbeda secara substansial (Kolen danBrennan, 1995: 210-211).

Angoff, menyatakan bahwa standarkesalahan penyetaraan adalah deviasi standardari skor-skor yang diubah ke skala tes Y yangberkorespondensi dengan suatu nilai tetap darites X (Angoff, 1984: p. 96).

Akurasi Relatif PenyetaraanGlenn, dalam Mathematics Dictionary 4th edition,menjelaskan bahwa dalam statistik suatukesalahan pengamatan adalah perbedaan antarasuatu pengamatan dan nilai sesungguhnya ataunilai yang diharapkan terhadap semua faktoryang tidak terkontrol (Glenn James, 1976: 4, 139).

Dari pendapat di atas, akurasi relatifpenyetaraan dipahami sebagai ketepatan hasilsuatu penyetaraan dibandingkan denganketepatan hasil penyetaraan lain.

PengukuranAkurasi RelatifPenyetaraan

Livingston menjelaskan cara mengkomputasiakurasi penyetaraan secara statistik sebagaiRMSD (root mean square deviation) sebagai berikut:jika x adalah suatu skor pada tes A; yx adalahsuatu skor pada tes B yang disetarakan terhadapx pada penyetaraan langsung dalam populasi; yxyadalah skor pada tes B yang setara terhadap xuntuk replikasi ke j pada penyetaraan tes jangkardan jika dilakukan untuk r replikasi, maka:

(Livingston, 1993: 28-29).

( )=

=

r

jxxy yy

rRMSD

1

21

Selanjutnya Livingstone menyatakan bahwa rata-rata dari RMSD menunjukkan akurasipenyetaraan; rata-rata RMSD yang kecilmenunjukkan akurasi yang lebih tinggi daripadarata-rata RMSD yang besar (Livingston, 1993: p.34).

Penyetaraan Skor TesBarnard berpendapat, tidak ada definisipenyetaraan skor tes yang dapat diterima secarauniversal. (Barnard, 1996: 16).Penyetaraan didefinisikan oleh Crocker danAlgina sebagai suatu proses untuk menetapkanskor-skor ekivalen pada dua instrumen (Crockerdan Algina, 1986: 457).1. Pengertian penyetaraan horizontal dan vertikal Holmes menyatakan penyetaraan horizontal

sebagai proses konversi skor mentah yangdigunakan untuk menyetarakan dua ataulebih tes yang didesain untuk mengukuratribut yang sama pada level pendidikan yangsama, sedangkan penyetaraan vertikalsebagai proses konversi skor mentah padaskala bersama (common scale) yang digunakanuntuk menyetarakan tes-tes yang mengukuratribut yang sama tetapi pada levelpendidikan yang berbeda. (Holmes, 1982:139).

2. Pengertian tes jangkar (anchor test) Tes jangkar menurut Petersen, Kolen dan

Hoover terdiri dari sejumlah butir, yangmerupakan miniatur dari kedua tes yangdisetarakan (memiliki keserupaan sedekatmungkin, baik konten maupun kedalamanmateri dengan kedua tes yang disetarakan).

Menurut Livingston, Dorans dan Wright,bahwa metode yang menggunakan skor tesjangkar adalah untuk menyesuaikanperbedaan kemampuan antara sampel-sampel tes baru dan lama (Livingston, Dorandan Wright, 1990: 75).

Berdasarkan pengalaman dalam praktek (ruleof thumb), Kolen dan Brennan menyatakanbahwa jumlah butir bersama paling tidak 20%dari panjang seluruh tes yang berisi 40 butirsoal atau lebih dan meskipun tes sangatpanjang, pada kasus ini 30 butir soal bersamasudah cukup (Kolen dan Brennan, 1995: 248).

3. Macam-macam desain penyetaraan Hambleton dan Swaminathan menyatakan

ada tiga desain dasar yang secara luasdigunakan untuk menyesaikan studipenyetaraan, ketiga desain itu adalah metodegrup tunggal (single group method), metode



grup ekivalen (equivalent group method) danmetode tes jangkar (anchor test design). Jelasmenurut Hambleton dan Swaminathan,variasi dari desain dasar itu dapat digunakanuntuk menyetarakan dua tes (Hambleton danSwaminathan, 1985: 198).

Secara khusus Kolen dan Jarjoura menyatakanbahwa desain populasi nonkivalen-butirbersama (common item-nonquivalent populationsdesign) digunakan untuk menyetarakan skor-skor teramati dari dua kelompok peserta tesdari populasi berbeda, yangdiadministrasikan untuk tes-tes yang berbeda,dan setiap tes memiliki suatu subset butirbersama (Kolen dan Jarjoura, 1987: 43).

4. Macam-macam metode penyetaraan Harris dan Kolen, menggambarkan secara

umum ada tiga metode penyetaraan yaitupenyetaraan linier, penyetaraan ekipersentildan penyetaraan teori responsi butir (Harrisdan Kolen, 1986: 36-37). Secara tradisionalmenurut Hambleton, Swaminathan danRogers, metode penytaraan ekipersentil danlinier telah digunakan untuk penyetaraan tes-tes (Hambleton dan Swaminathan, 1985: 123).

4.1. Metode penyetaraan ekipersentil berantai(chained equipercentile equating)

Angoff menjelaskan metode penyetaraan EByang disebutnya sebagai desain V sebagaiberikut: tes X dan tes jangkar V disetarakandengan metode penyetaraan ekipersentildemikian juga tes Y dan tes jangkar V,kemudian skor ekivalen pada X dan Y dicariuntuk setiap skor dari tes jangkar V (Angoff,1984: 115-116).

4.2. Metode penyetaraan ekipersentil estimasifrekuensi (frequency estimation equipercentileequating)

Metode penyetaraan EEF didefinisikan olehKolen dan Brennan sebagai suatu metodeuntuk mengestimasi distribusi kumulatifskor-skor dari tes X dan tes Y untuk suatupopulasi sintetik dari data yang dikumpulkandengan menggunakan desain grupnonekivalen-butir bersama dan tara persentildiperoleh dari distribusi-distribusi kumulatif(Kolen dan Brennan, 1995: 137).

Teknik Penghalusan (smoothing)Menurut Kolen tujuan penghalusan dapatdipandang sebagai usaha untuk mengurangikesalahan dalam mengestimasi distribusipopulasi yang diperoleh dari titik-titik skor (Kolen,1991: 258-259).

Berbeda dengan interpolasi, menurutPetersen, Kolen dan Hoover, pada penghalusan,fungsi yang dihasilkan tidak perlu melalui titik-titik data yang teramati (Petersen, Kolen danHoover, 1989: 249). ]

Untuk data yang dikumpulkan denganmenggunakan desain tes jangkar, menurut Cookdan Petersen teknik analitik untuk penghalusandistribusi bivariat lebih tepat dilakukan sebelumpenyetaraan (prapenghalusan) (Cook danPetersen, 1987: 227).1. Penghalusan pada sampel kecil Kolen menyatakan bahwa, penghalusan

secara tipikal lebih berefek untuk ukuransampel yang lebih kecil (Kolen, 1988: 34).

Namun Lord mengindikasikan, meskipunpenghalusan berpotensi untuk mengurangikesalahan penyetaraan, hal ini dapatmemunculkan bias yang tidak tampakmeskipun dalam sampel besar (Lord, 1982:174).

2. Jenis-jenis teknik penghalusan Menurut Kolen, ada tiga metode yang cukup

fleksibel untuk menyusun kembali denganmemadai suatu keberagaman distribusi skortes yaitu: metode kernel, metode berdasarkanmodel strong true-score dari Lord dan metodeyang menggunakan model log-linierpolinomial (Kolen, 1991: 257).

2.1. Pengertian teknik pengha-lusan loglinier Penghalusan LL menurut Scheuneman dan

Bleistein memberikan suatu cara untukmenganalisis data kuantitatif melaluihubungan elemen-elemen dari tabelkontingensi (Scheuneman dan Bleistein, 1999:224).

Menurut Kennedy dan Hak, algoritma untukestimasi kebolehjadian maksimum untukmetode di atas dapat menggunakan programBMDP4F, SASCAT-MOD atau SPSS-X LOG-LINIER atau dengan program komputerlainnya (Kennedy dan Hak, 1997: 571).

2.2. Pengertian teknik pengha-lusan kernel Menurut Cope dan Kolen, gagasan di balik

estimasi KN adalah untuk membentangkankepadatan dari suatu titik skor teramatidengan menggunakan suatu fungsiprobabilitas kepadatan yang diacu sebagaikernel (Cope dan Kolen, 1990: 4).Selanjutnya Cope dan Kolen menyatakan

bahwa estimator KN dikembangkan untukdistribusi skor mentah yang diskrit dengan



menggunakan suatu kernel binomial untukmenghasilkan suatu estimasi kepadatan diskrit(Cope dan Kolen, 1990: 4).

Estimator KN menurut Kolen, adalahprobabilitas binomial yang menggunakanparameter berhasil 0,5 sehingga kernel simetrik;parameter h yang diatur oleh peneliti adalah suatubilangan genap positif yang merupakan parameterbinomial coba-coba (binomial number of trailsparameter) (Kolen, 1991: 259).

Secara lebih terinci Kolen menjelaskan sebagaiberikut: untuk suatu tes dengan K butir dan suatudistribusi sampel ; i = 0,, K dan untuk 0 ditempat lain, estimator kernel adalah:

di mana h adalah bilangan bulat genap dankepadatan binomialnya adalah:

Jadi fh(i) adalah suatu kepadatan sepanjangjangkauan i = -h/2,.K,. h/2.Bagaimanapun, perhatian kita adalahmengestimasi sepanjang jangkauan skor tes, i = 0,1, ., K.

Kesalahan estimasi validasi silang untukpenghalusan kernel (Errh) menurut Hanson dapatdihitung secara efisien dengan menggunakanrumus:

di mana n ialah jumlah responden dan K ialahlevel skor dalam jangkauan skor tes (0, 1, 2,............K). Dicari nilai h yang menghasilkan Errhminimum.

Beberapa hasil penelitian terdahulu yang relevandengan penelitian ini, dapat dikemukakan sebagaiberikut:

Kolen pada penelitiannya tentang keefektivanpenghalusan secara analitik pada penyetaraanekipersentil, menyatakan bahwa banyak teknikpenghalusan, cocok untuk setiap metode

( )( ) 0,5 1 0,5 0,5 ( , )0,5h mm h hh hB m h C m hm m

= = =

[ ]20

( / 2 )2( ) ( ) ( )1

K K

h h hI i o

B h hnErr f i f i f in n

= =

=

penyetaraan ekipersentil, dan secara umumketepatan penyetaraan meningkat jika ukuransampel bertambah (Kolen, 1984; 35-36).

Menurut penelitian Kolen dan Brennan,metode EB memiliki beberapa kelemahan, yaitu:metode ini tidak membutuhkan pertimbangan daridistribusi gabungan skor total dan skor tes jangkar,sehingga secara komputasional sangat kurangintensif daripada metode EEF, dan kedua, metodeini tidak tergabung secara langsung denganpopulasi sintetik sehingga tidak jelas untukpopulasi mana hubungan itu berlaku atauditujukan agar berlaku (Kolen dan Brennan, 1995:149).

Braun dan Holland mengindikasikan bahwapenyetaraan EB dan EEF secara umum tidakmenghasilkan hasil yang sama, walaupun jikaasumsi untuk EEF dipegang (Braun dan Holland,1982: 42).

Kolen dari hasil penelitiannya terhadapmetode-metode penghalusanuntuk mengestimasi distribusiskor tes, juga mengindikasikanbahwa kekuatan metode KNladalah kesederhanaannya

sehingga dengan program komputer mudahdiimplementasikan namun untuk tujuanmengestimasi distribusi dalam prosedurpsikometrik seperti pada penyetaraanmenimbulkan distorsi pada ujung-ujungdistribusi yang dapat menimbulkan problematik(Kolen, 1991: 279).

Selanjutnya penelitian yang dilakukan Kolen,menunjukkan bahwa penghalusan KN sering kali

menimbulkan estimasi distribusi yangtampak tidak rata atau melonjak-lonjak(bumpy) atau menyimpang secarasistematik (Kolen, 1991: 263).

Dari penelitian terhadap perbandinganpenghalusan univariat dan bivariat pada EEFyang dilakukan oleh Livingston dan Feryokdisimpulkan bahwa penghalusan KN padadistribusi gabungan dari sampel berukuran 100dan 300 peserta tes, secara substansialmemperbaiki hasil penyetaraan, bahkan padasampel dari 1000 dan 3000 peserta tespenghalusan pada metode ini tidakmenghasilkan perbaikan (Livingston dan Feryok,1987: 1).

Penelitian Livingston terhadap penggunaanpenghalusan LL pada penyetaraan EB denganmenggunakan sampel kecil menyimpulkan,bahwa akan lebih spekulatif jika menggeneralisasikesimpulan bahwa penghalusan LL juga akanmenghasilkan hasil terbaik jika digunakan pada

Hasil Penelitian yang Relevan

/ 2

/ 2( ) ( / 2 ) ( )

i h

hj i h

f i B j i h h f j+

=

= +



metode penyetaraan ekipersentil lain seperti EEF,meskipun mungkin akan mengikuti pola serupa(Livingston, 1993: 38).

Kolen, dari hasil penelitiannya terhadapberbagai metode penghalusan untukmengestimasi distribusi-distribusi skor tesmenyimpulkan bahwa metode LL menghasilkanestimasi kesalahan lebih kecil daripada metodeKN untuk kebanyakan ukuran sampel untuk tesstudi sosial ACT (American College Testing) danujian sertifikasi namun metode KN menghasilkanestimasi kesalahan lebih kecil daripada metodeLL untuk tes matematik ACT tetapi semua untukukuran sampel terbesar (Kolen, 1991: 272).

1. Perbedaan Akurasi Relatif Penyetaraan SkorTes Untuk Sampel Berukuran 300 dengan TPdan EB, dan dengan LL dan EB

Penghalusan mengindikasikan sangatpotensial untuk memperbaiki hasilpenyetaraan karena mengurangi kesalahanpenarikan sampel.

Dari uraian di atas, diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan TP dan EB lebih rendah daripadadengan LL dan EB atau EBLLEBTP RMSDRMSD ++ > .

2. Perbedaan Akurasi Relatif Penyetaraan SkorTes Untuk Sampel Berukuran 300 dengan TPdan EB, dan dengan KN dan EB

Sama dengan prapenghalusan LL,prapenghalusan KN juga memperbaiki hasilpenyetaraan, meskipun perbaikan oleh KNkurang, dibandingkan dengan LL.

Dari uraian di atas, diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan TP dan EB lebih rendah daripadadengan KN dan EB atau EBKNEBTP RMSDRMSD ++ >

3. Perbedaan Akurasi Relatif Penyetaraan SkorTes Untuk Sampel Berukuran 300 dengan LLdan EB, dan dengan KN dan EB

Prapenghalusan LL pada EB untuk sampelrelatif kecil, dalam penelitianmengindikasikan hasil hubunganpenyetaraan yang baik, meskipun demikiansangat spekulatif untuk menyatakan bahwaLL juga akan menghasilkan hubunganpenyetaraan yang baik untuk metodepenyataraan lainnya.

Sedangkan penghalusan KN seringkalimenyimpang secara sistematik danmenghasikan distorsi pada ujung-ujung

distribusi. Jadi KN meskipun memperbaikiestimasi, namun perbaikan itu kurangdibandingkan dengan teknik penghalusanlainnya.

Dari uraian di atas diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan LL dan EB lebih tinggi daripada

dengan KN dan EB atau EBKNEBLL RMSDRMSD ++ < .4. Perbedaan Akurasi Relatif Penyetaraan Skor

Tes Untuk Sampel Berukuran 300 dengan TPdan EEF, dan dengan LL dan EEF

Penelitian menunjukkan bahwa penghalusanbivariat pada penyetaraan ekipersentil-butirbersama, menghasilkan fungsi penyetaraanyang lebih akurat daripada tanpapenghalusan, dan tidak tergantung teknikpenghalusannya.

Dari uraian di atas, diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan TP dan EEF lebih rendahdaripada dengan LL dan EEF atau

BEFLLEEFTP RMSDRMSD ++ >5. Perbedaan Akurasi Relatif Penye-taraan Skor

Tes Untuk Sampel Berukuran 300 dengan TPdan EEF, dan dengan KN dan EEF

Penelitian menyimpulkan bahwa hasilpenyetaraan dari distribusi skor diperhalusdengan teknik apapun, jauh lebih baikdaripada tanpa penghalusan.

Dari uraian di atas, diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan TP dan EEF lebih rendahdaripada dengan KN dan EEF atau EEFTPRMSD +

EEFKNRMSD +>6. Perbedaan Akurasi Relatif Penyetaraan Skor

Tes Untuk Sampel Berukuran 300 dengan LLdan EEF, dan dengan KN dan EEF

Penelitian pada mata pelajaran Matematikamengindikasikan bahwa prapenghalusanKN justru menghasilkan estimasi kesalahanlebih kecil daripada LL, meskipun penelitianitu dilakukan untuk sampel besar.Penelitian ini dilakukan pada mata pelajaranFisika, yang banyak menggunakanMatematika sebagai alat bantu penyelesaiansoalnya, maka seandainya digunakan padasampel besar maka prapenghalusan KNtentunya akan menghasilkan akurasi yanglebih baik daripada LL.Dari uraian di atas diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan LL dan EEf lebih rendah daripada

Kerangka Berpikir



dengan KN dan EEF atauEEFKNEEFLL RMSDRMSD ++ >

7. Perbedaan Akurasi Relatif Penyetaraan SkorTes Untuk Sampel Berukuran 300 dengan TPdan EB, dan dengan TP dan EEFPenelitian membuktikan bahwa metode EBdan EEF tidak menghasilkan hasilpenyetaraan yang sama,Metode EB memiliki kelemahan karena tidakmempertimbangkan distribusi gabungan dariskor total dan skor tes jangkarnya sehinggasecara komputasional kurang intensifdaripada metode EEF.Dari uraian di atas diduga bahwa akurasirelatif penyetaraan skor tes untuk sampelberukuran 300, dengan TP dan EB rendahdaripada dengan TP dan EEF atau

EBTPRMSD + EEFTPRMSD +>8. Perbedaan Akurasi Relatif Penyetaraan Skor

Tes Untuk Sampel Berukuran 300 dengan LLdan EB, dan dengan LL dan EEF

Penelitian-penelitian yang dilakukandengan menggunakan berbagai teknikprapenghalusan pada berbagai metodepenyetaraan, menunjukkan beda akurasipada hasil penyetaraannya.

Prapenghalusan LL pada penyetaraan EBdengan menggunakan sampel kecil,menunjukkan hasil yang sangat baik, namunhal itu tidak dapat digeneralisasikan padapenggunaan metode EEF, meskipun hal itumungkin akan mengikuti pola yang serupa.

Dari uraian di atas diduga akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan LL dan EB lebih tinggi daripadadengan LL dan EEF atau

EEFLLEBLL RMSDRMSD ++

Berdasarkan landasan teori dan kerangka berpikiryang telah diuraikan di atas, maka sesuai denganpermasalahan dan tujuan penelitian, dapatdiajukan hipotesis yang akan diuji secara empirikmelalui penelitian ini.

Akurasi relatif penyetaraan skor tes untuksampel berukuran 300,

1. TP dan EB lebih rendah daripada LL dan EBatau

2. TP dan EB lebih rendah daripada KN dan EBatau

3. LL dan EB lebih tinggi daripada KN dan EBatau

4. TP dan EEF lebih rendah daripada LL danEEFi atau

5. TP dan EEF lebih rendah daripada KN dan

EEF atau & &TP EEF KN EEFRMSD RMSD>

6. LL dan EEF lebih rendah daripada KN dan

EEF atau && KN EEFLL EEFRM SD RM SD>

7. TP dan EB lebih tinggi daripada TP dan EEF

atau & &TP EB TP EEFRMSD RMSD>

8. LL dan EB lebih tinggi daripada LL dan EEFatau

9. KN dan EB lebih rendah daripada KN dan EEFatau

Tujuan Operasional PenelitianTujuan penelitian ini secara operaional adalahuntuk menjawab masalah-masalah penelitianyang terkait dengan akurasi relatif penyetaraanskor tes untuk sampel berukuran 300, ditinjau darimetode penyetaraan dan teknik prapengalusan.

Berdasarkan perumusan masalah yang telahdikemukakan, maka tujuan khusus penelitian iniadalah untuk mengetahui, perbedaan akurasirelatif hasil penyetaraan EB dengan: TP, LL dan

Pengajuan Hipotesis

& &KN EB KN EEFRMSD RMSD>

& &LL EB LL EEFRMSD RMSD

& &TP EB LL EBRMSD RMSD>

& &LL EB KN EBRMSD RMSD

Metodologi Penelitian



KN; serta hasil penyetaraan EEF dengan TP, LLdan KN, untuk sampel sebesar 300.

Penelitian ini dilaksanakan di SMUK I, II, III, IV, Vdan VI BPK PENABUR Jakarta; SMUK Gonzaga;SMUK YPK Ketapang; SMUK Triana; SMUK BHK;SMUK Tarsisius; SMUN 2; SMUN I5; SMUN 25;SMUN 36; SMUN 55; SMUN 70; dan SMUN 98,dengan subyek penelitian siswa kelas III programIPA semester I tahun ajaran 2002 2003.

Metode yang digunakan dalam penelitian iniadalah metode eksprimen, untuk mengujiperbedaan akurasi relatif hasil penyetaraan(TP&EB) dan (LL&EB); (TP&EB) dan (KN&EB);(LL&EB) dan (KN&EB); (TP&EEF) dan (LL&EEF);(TP&EEF) dan (KN&EEF); (LL&EEF) dan(KN&EEF); (TP&EB) dan (TP&EEF); (LL&EB) dan(LL&EEF); serta (KN&EB) dan (KN&EEF), untuksampel sebesar 300.

Variabel dalam penelitian ini terdiri dari: (1)variabel bebas dan (2) variabel terikat. Adapunvariabel bebasnya adalah keenam hasilpenyetaraan dengan menggunakan: TP, LL danKN, pada EB dan EEF, sedangkan variabelterikatnya adalah akurasi relatif penyetaraan skortes untuk sampel berukuran 300.

Hal yang ditinjau dalam penelitian ini adalahakurasi penyetaraan yang dinyatakan sebagaiRMSD rata-rata ( RMSD) dari RMSD ekivalensiekipersentil untuk 25 kali replikasi, denganrancangan sebagai berikut.

Tempat dan Waktu Penelitian

Metode Penelitian

Populasi penelitian ini adalah siswa kelas III SMUprogram IPA semester satu tahun ajaran 2002/2003 dari kedelapanbelas SMU di atas. Populasiini terdiri dari 1600 orang siswa, 804 orang siswasebagai responden instrumen penelitian A, dan796 orang siswa sebagai responden instrumenpenelitian B. Desain pengumpulan data yangdigunakan adalah desain grup nonekivalen-tesjangkar. Tes jangkar yang digunakan merupakantes jangkar internal.

Penarikan sampel, dilakukan denganpenarikan sampel matriks (matrix sampling), yaitupensampelan peserta, masing-masing sebanyak300 orang siswa untuk setiap instrumenpenelitian.

Kedua instrumen penelitian A dan B dibuatberdasarkan kisi-kisi soal dengan memperhatikanaspek kemampuan ranah kognitif dan taraf sukar,pada pokok/subpokok bahasan Gerak Harmonik,Gelombang dan Bunyi sesuai dengan GBPP matapelajaran Fisika Kurikulum SMU 1994 YangDisempurnakan untuk kelas III SMU programIlmu Pengetahuan Alam. Kedua instrumendiharapkan memiliki keserupaan baik isi maupunkedalaman materinya.

Setiap instrumen penelitian A dan B memuat50 butir soal pilihan ganda, dengan 5 (lima)alternatif pilihan jawaban benar. Tes jangkarterdiri dari 10 butir soal ( 20% dari panjang tes).Tes jangkar terdiri dari butir-butir soal yang telahdi-EBTANAS-kan atau di-UAN-kan sehinggabutir-butir soal tersebut telah divalidasi, dandapat digunakan untuk tes jangkar. Pemilihanbutir-butir soal untuk tes jangkar diupayakan agar

merupakan miniatur darikedua instrumen penelitian.

Skor tes yang diperolehdari kedua instrumenpenelitian ini diacak sederhanadengan sampel matriks, yaitusecara pensampelan peserta,artinya setiap kali replikasidiambil sebanyak 300 pesertates yang menjawab semua butirtes, kemudian diperlakukanprapenghalusan LL dan KN.Distribusi skor setelahprapenghalusan disetarakan

Populasi dan Sampel Penelitian

MP EB EEF EB EEF EB EEF

TP&EB TP&EEF LL&EB LL&EEF KN&EB KN&EEF

RMSD RMSD RMSD RMSD RMSD RMSD

PP TP LL KN

PP&MP

Keterangan : PP: Teknik prapenghalusan; MP: Metode penyetaraan;

TP: Tanpa prapenghalusan; LL: Prapenghalusan log-linier; KN:

Prapenghalusan kernel: EB: Metode penyetaraan ekipersentil berantai;

EEF: Metode penyetaraan ekipersentil estimasi frekuensi; RMSD :rata-rata RMSD

Matriks Rancangan Penelitian

Instrumen Penelitian



dengan metode penyetaraan EB dan EEF,kemudian dihitung ekivalensi ekipersentilnya.

Dihitung RMSD (root mean square deviation)dari ekivalensi ekipersentil untuk setiap kalireplikasi dan rata-rata RMSD sebagai akurasirelatif penyetaraan skor tes.

Konseptual Variabel PenelitianAkurasi relatif penyetaraan skor tes ialah derajatketepatan relatif hasil penyetaraan dua skor tessampel berukuran 300, dari dua instrumenpenelitian yang berbeda, yang diperlakukandengan teknik penghalusan dan atau metodepenyetaraan berbeda.

Teknik prapenghalusan log-linier (LL) ialahcara untuk mengurangi kesalahan pengestimasiandistribusi skor tes dari instrumen penelitian dandilakukan sebelum penyetaraan, denganmengubah fungsi polinomial dari distribusi skortes menjadi log dari kepadatan distribusi skor tesdengan menggunakan metode statistik tertentu.

Teknik prapenghalusan kernel (KN) ialahcara untuk mengurangi kesalahan pengestimasiandistribusi skor tes dari instrumen penelitian dandilakukan sebelum penyetaraan, denganmengubah fung-si polinomial dari distribusi skortes menjadi probabilitas binomial denganmenggunakan metode statistik tertentu.

Metode penyetaraan ekipersentil berantai (EB)ialah cara mencari ekivalensi ekipersentil dua skortes dari dua instrumen penelitian yang berbeda,dengan menggunakan statistik tertentu.Ekivalensi ekipersentil dihitung dengan metodepenyetaraan ekipersentil langsung secara terpisahpada skor tes kedua instrumen, masing-masingterhadap tes jangkarnya, tanpa menggunakanpopulasi sintetik.

Metode penyetaraan ekipersentil estimasifrekuensi (EEF) ialah cara mencari ekivalensiekipersentil dua skor tes dari dua instrumenpenelitian yang berbeda dengan menggunakanstatistik tertentu, Ekivalensi ekipersentil dihitungdengan mengestimasi distribusi kumulatif duaskor tes masing-masing terhadap tes jangkarnya,dengan menggunakan populasi sintetik.

Operasional Variabel PenelitianAkurasi relatif penyetaraan skor tes ialah rata-rataRMSD (

R

) dari ekivalensi persentil untukseluruh replikasi yang dilakukan. Ekivalensipersentil dihitung dari dua skor tes dengan

prapenghalusan TP, LL atau KN, dan metodepenyetaraan EB atau EEF.

Teknik prapenghalusan log-linier (LL) ialahcara untuk mengurangi kesalahan pengestimasiandistribusi skor tes dari dua instrumen penelitiandengan menggunakan program log-lin SPSS X.

Teknik prapenghalusan kernel (KN) adalahcara untuk mengurangi kesalahan pengestimasiandistribusi skor tes dari dua instrumen penelitian,dan dilakukan dengan menghitung kepadatanbinomial dan estimator kernel.

Metode penyetaraan ekipersentil berantai (EB)ialah cara mencari ekivalensi persentil skor tes,yang dihitung dengan mencari: (1) ekivalensiekipersentil skor tes instrumen pertama terhadapskor jangkarnya pada populasi pertama [ey1(x)];(2) tara peringkat ekipersentil [ey1(x)] terhadapskor tes butir bersama instrumen kedua dandiperoleh P[ey1(x)]; (3) ekivalensi ekipersentil skortes instrumen kedua terhadap P[ey1(x)] adalahey(EB), merupakan ekivalensi ekipesentil untukmetode ekipersentil berantai (eyEB).

Metode ekipersentil estimasi frekuensi (EEF)ialah cara mencari ekivalensi ekipersentil skor tes,yang dihitung dengan mencari: (1) distribusigabungan dari skor total pada instrumenpenelitian pertama dan tes jangkarnya untukpopulasi pertama dan distribusi gabungan dariskor total pada intrumen penelitian kedua dantes jangkarnya untuk populasi kedua; (2)distribusi kondisional skor tes instrumenpenelitian kedua untuk mendapat skor v dari tesjangkar pada populasi kedua, (3) distribusigabungan dari skor instrumen penelitian keduadan skor tes jangkar untuk populasi pertama; (4)frekuensi skor tes instrumen pertama dan keduauntuk populasi sintetik dan (5) tara peringkatpersentil skor tes kedua instrumen pada populasisintetik adalah ey(EEF), merupakan ekivalensiekipersentil untuk ekipersentil estimasi frekuensi(eyEEF).

Sebelum kedua instrumen penelitian digunakan,terlebih dahulu dilakukan ujicoba untukmemperoleh validitas empirik dari setiap butir danreliabilitas instrumen. Ujicoba intrumenpenelitian A dilakukan di SMUK IPEKA Tomangdan instrumen penelitian B di salah satu kelas IIIIPA SMUK II BPK PENABUR Jakarta.

Kualitas Butir



Pada ujicoba instrumenpenelitian A untuk 39 orangsiswa, diperolah 30 butirsoal sahih yang memiliki rpbis 0,316. Dari 30 butir soalinstrumen A diperoleh r KR-20= 0,746; sedangkaninstrumen penelitian Buntuk 38 orang siswa,diperoleh 30 butir soal sahihyang memiliki rpbis 0,316.Dari 30 butir soal instrumenB diperoleh rKR-20 = 0,807.

Ketigapuluh butir soalinstrumen penelitian baik Amaupun B ditambah dengan10 butir soal tes jangkar,merupakan instrumenpenelitian yang digunakanuntuk penelitian.

1. Grafik skor tes-RMSD dari ekivalensiekipersentil untuk data pada penyetaraan EBdan penyetaraan EEF, a. tanpaprapenghalusan; b. dengan prapenghalusanlog-linier; dan c. dengan prapenghalusankernel.

Hipotesis Statistik

Gabungan Kelompok Hipotesis

1. (TP&EB) & (LL&EB) H0:

AKUR1

AKUR 2 H

1:

AKUR1 <

AKUR 2

2. (TP&EB) & (KN&EB) H0:

AKUR 1

AKUR 2 H

1:

AKUR 1 <

AKUR 2

3. (LL&EB) & (KN&EB) H0:

AKUR 1

AKUR 2 H

1:

AKUR 1 >

AKUR 2

4. (TP&EEF) & (LL&EEF) H0:

AKUR 1

AKUR 2 H

1:

AKUR 1 <

AKUR 2

5. (TP&EEF) & (KN&EEF) H0:

AKUR 1

AKUR 2H

1:

AKUR 1 <

AKUR 2

6. (LL&EEF) & (KN&EEF) H0:

AKUR 1

AKUR 2H

1:

AKUR 1 <

AKUR 2

7. (TP&EEB) & (TP&EEF) H0:

AKUR 1

AKUR 2H

1:

AKUR 1 <

AKUR 2

8. (LL&EB) & (LL&EEF) H0:

AKUR 1

RMSD2H

1:

AKUR 1 >

AKUR 2

9. (KN&EB) & (KN&EEF) H0:

AKUR 1

AKUR 2H

1:

AKUR 1 <

AKUR 2

Keterangan:

* AKUR1

;

AKUR1>

AKUR2 atau .

Hasil Penelitian

2. RMSD dan DS RMSD dari ekivalensiekipersentil dari 25 replikasi dan setiapreplikasi terdiri dari 300 responden untukkeenam kelompok sepanjang rentang skor 4 34

3. Grafik RMSD dari ekivalensi ekipersetil secaragrafis

RMSD TP&EB TP&EEF LL&EB LL&EEF KN&EB KN&EEF

1.5157 0.4649 1.5169 4.4991 1.1797 0.7549

DS RMSD 1.8943 0.2726 1.8967 7.7848 1.1774 0.6348

RMSD

0

2

4

6

8

10

0 4 8 12 16 20 24 28 32 36

SK OR

TP & EB TP & EEF

0

5

10

15

20

25

30

0 4 8 12 16 20 24 28 32 36

SKOR

LL & EB LL & EEF

0

1

2

3

4

5

0 4 8 12 16 20 24 28 32 36

SKOR

KN & EB KN & EEF



Uji NormalitasUntuk mengetahui apakah data RMSD ini berasaldari populasi yang berdistribusi normal, makadilakukan uji normalitas dengan menggunakanuji Lilliefors untuk keenam kelompok data sebagaiberikut:Rangkuman hasil uji normalitas dengan ujiLilliefors keenam kelompok pada taraf signifikansi = 5%

Homogenitas varians populasi dari keenam dataRMSD diuji dengan uji Bartlett, diperoleh:2

hitung = 336.9019 > 2

tabel (0.95, 5) = 11.1.

Sehingga dapat disimpulkan varians RMSD dariekivalensi ekipersentil keenam kelompok itu tidakhomogen.

Karena prasyarat normalitas dan homogenitastidak dipenuhi, maka hipotesis penelitian ini diujidengan Analisis Varian (ANAVA) Satu Arahdengan pendekatan statistiknonparametrik.parametrik.

Dengan menggunakan uji Kruskal-Wallis(Murti, 1996:97), diperoleh:

n = jumlah seluruh sampel = 186; k = jumahkelompok = 6: jR =jumlah peringkat tiapkelompok.

Jadi, paling sedikit ada satu kelompok mempunyaiRMSD berbeda RMSD dari kelompok lainnya.

Selanjutnya untuk mengetahui kelompok-kelompok mana yang memiliki peringkat RMSDberbeda, dilakukan Uji Komparasi Ganda(Multiple Comparison). Menurut Snedecor danCochran, Uji Komparasi Ganda digunakan untukmenampilkan sejumlah signifikansi tes-tes ataumengkonstruksi sejumlah interval tarafkonfidensi ketika menganalisis kelompok-kelompok data (Snedecor dan Cochran, 1982: p.233).

Menurut Naga, penentuan kelompok yangberbeda pada uji Kruskal-Wallis, ialah yangmemenuhi syarat:

dan ialah peringkat rata-rata untuk

kelompok i dan j; k ialah banyaknya kelompok(Naga, 2002: 30).k = 6, n = 186 dan a = 5%, diperoleh:

Uji Homogenitas

Pengujian Hipotesis

H

= 19.58

' '( )( 1) 1 1

;12i j i j

n nR R zn n

+ +

'

( 1)k k

=

2(0.95, 5)tabelH = = 19.58 > = 11.1.

2(0.95,5)tabelH =

Lhitung L tabel Jumlah Kelompok Sampel

1. TP&EB 31 0.2772 0.1591

2. LL &EB 31 0.2772 0.1591

3. KN & EB 31 0.2593 0.1591

4. TP & EEF 31 0.2693 0.1591

5. LL & EEF 31 0.3328 0.1591

6. KN & EEF 31 0.3025 0.1591

Kesimpulan keenam kelompok tidak normal.

Pengujian Persyaratan Analisis



a. Penarikan kesimpulan pada uji statistikalWright menyatakan bahwa tujuanpengukuran adalah penarikan kesimpulan.Masalah pertama yang dihadapi padapenarikan kesimpulan adalah bagaimanamembedakan inference (kesimpulan) danmissing (salah tanggap); hal ini terjadikarena data yang luput pada usahapengumpulan data secara aktual (Wright, : 2). Penarikan kesimpulan itu memerlukansolusi statistikal.Penghalusan menurut Kolen dan Jarjoura(Kolen dan Jarjoura, 1987: 43), danpenyetaraan menurut Barnard, adalah prosesstatistikal (Barnard, 1996: 1).Menurut Angoff, disadari sepenuhnya bahwasolusi statistikal secara mendasar tidak lebihtepat dari data yang mendasarinya dan tidakdapat mempertahankan selanjutnya metode-metode yang digunakan untukmemperolehnya, serta asumsi yangmendasarinya (Angoff, 1984: 139). Wrightmenyarankan, data yang didugamenimbulkan salah tanggap itu tetap dapatdigunakan dengan pertama, menggunakansuatu proses stokhastik yang relevan dengan

(dicari dengan program Mini Tab)

' 31 .66 . 10 = ' 3( ) (1.66 .10 ) 2.93644z z = =

'( )( 1) 1 1 40.1612 i j

n nz

n n+

+ =ztabel

9. = 14.1; terima Ho

( ) ( )& &TP EB LL EBR R

5. = 27.77; terima Ho

( ) ( )& &TP EB KN EBR R

( ) ( )& &LL EB KN EBR R

( ) ( )& &TP EEF LL EEFR R

( ) ( )& 7TP EEF KN EEFR R

( ) ( )& &LL EEF KN EEFR R

( ) ( )& &TP EB TP EEFR R

( ) ( )& &LL EB LL EEFR R

( ) ( )& &KN EB KN EEFR R

1. = 0.74; terima Ho 2. = 9.42; terima Ho 3. = 10.16; terima Ho 4. = 32; terima Ho 6. = 4.23; terima Ho 7. = 51.29; tolak Ho 8. = 20.03; terima Ho

Rangkuman hasil Uji Komparasi Ganda

rumus yang stabil mulai dari ketepatan datamentah hingga penarikan kesimpulan; dankedua mencari model matematik yang dapatberpengaruh pada proses stokhastik yangmenghasilkan estimasi stabil (langkah keduaini diakui oleh Wright tampaknya rumit)(Wright, : 2-3).

b. Ukuran SampelLivingston dan Feryok pada penelitianterhadap penyetaraan ekipersentil estimasifrekuensi dan penghalusan kernel,membuktikan bahwa akurasi penyetaraanterjadi pada sampel berukuran 300(Livingston dan Feryok, 1987: p. 9-10);sedangkan Jarjoura dan Kolen menyarankan,jika digunakan kesalahan penyetaraansebagai indikator akurasi penyetaraanekipersentil dengan menggunakan desainnonekivalen butir bersama, maka secarapraktikal harus digunakan sampel berukuranlebih besar dari 800 (Jarjoura dan Kolen, 1985:138).

c. PenghalusanKolen menyatakan bahwa penghalusansecara tipikal lebih berefek untuk ukuransampel yang lebih kecil (Kolen, 1988: 34).Khususnya pada prapenghalusan, Kolen danBrennan menyatakan bahwa akurasidistribusi tersebut krusial, karena salah satusifat penting yang berkaitan dengan akurasiadalah menjaga agar momen dari distribusidiperhalus paling tidak memiliki momensentral yang sama dengan momen sentral daridistribusi teramati (Kolen dan Brennan, 1995:71-72).Lord mengindikasikan, bahwa penghalusanmeskipun berpotensi untuk mengurangikesalahan penyetaraan, hal ini dapatmemunculkan bias yang tidak tampakmeskipun dalam sampel besar (Lord, 1982:174). Hal ini merupakan indikasi bahwapenghalusan tidak sekedar memerlukansampel besar, tetapi ada faktor-faktor lainyang perlu diperhatikan ketika melakukanpenghalusan, antara lain keserupaan antaramomen sentral dari distribusi skordiperhalus, dan dari distribusi skor teramati.Menurut Kolen dan Brennan, bagaimanapunbahaya dari penggunaan metodepenghalusan adalah hasil estimasi daridistribusi populasi meskipun lebih halus,mungkin merupakan estimasi yang lebihburuk dari distribusi populasi atau hubungan

Pembahasan Hasil Penelitian



penyetaraan, dibandingkan dengan tanpapenghalusan, misalnya hubunganpenyetaraan menjadi tidak beraturanwalaupun telah diperhalus; kualitas daripenghalusan secara analitik merupakansuatu isu empirik. (Kolen dan Brennan, 1995:66).

d. Validitas silangMenurut Kolen, efektivitas dari prosedurpenghalusan secara analitik padapenyetaraan ekipersentil, ditentukan denganmembandingkan hasil-hasil penyetaraannya,dengan menggunakan validitas silang untukberbagai sampel berukuran 500 hingga 2500peserta tes (Kolen, 1984: 25).Jadi, pada hasil penyetaraan denganpenghalusan, di samping faktor ukuransampel dan keserupaan momen sentral daridata yang diperhalus dan data teramati, makafaktor lain yang juga harus diperhatikan,ialah dilakukannya validitas silang, dan atautersedianya data dengan berbagai bentukdistribusi dan ukuran sampel.

e. Pemilihan derajat penghalusan dankecocokan modelPemilihan derajat penghalusan untukmemilih kecocokkan model, di sampingukuran sampel dan validitas silang,merupakan faktor yang sangat menentukankeefektifan penghalusan, paling tidak untukmempertahankan keserupaan antara momensentral dari distribusi skor butir bersama sertadistribusi skor total, sebelum dan setelahpenghalusan, sehingga dapat dikatakanbahwa tes jangkar merupakan miniatur darikeseluruhan tes.Satu hal yang perlu disimak ialah, pendapatKolen pada penelitiannya yaitu, keakuratanhasil penyetaraan harus melibatkan distribusiskor dari tes-tes lain, dengan ukuran sampellebih kecil dan lebih besar; serta hal lain yangperlu dipertimbangkan adalah proseduruntuk memilih secara otomatis derajatpenghalusan sehingga dapat membantukeefektifan dari metode tersebut (Kolen, 1991:272).

f. Keminiaturan Tes JangkarTes jangkar yang digunakan pada penelitianini adalah butir-butir soal yang telah di-EBTANAS-kan atau di-UAN-kan, yangdianggap telah divalidasi oleh PusatPenilaian Pendidikan Balitbang Depdiknas,

dengan jumlah soal terbatas dan belum tentumerupakan miniatur dari keseluruhan tes.

g. Penghalusan log-linierHanson, Zeng dan Colton, yang menyatakanbahwa pengggunaan penghalusan log-linierharus mengevaluasi penggunaan daribeberapa model log-linier, dan mengambilmodel yang paling sederhana yang cocokdengan datanya (Hanson, Zeng dan Colton,1994: 12).Hanson pada penelitiannya terhadapmetode-metode penghalusan, menyimpulkanbahwa performans dari metode penghalusanpolinominal yang relatif lebih buruk daripadametode penghalusan kernel, dapat sebagiandisebabkan oleh strategi pemilihan model, disamping ukuran sampel yang kecil.

h. Penghalusan kernelKhususnya terhadap pemilihan h padapenghalusan kernel, Kolen mengingatkanbahwa prosedur validasi silang perludilakukan untuk mengurangi subyektivitaspada pemilihan kriteria pemilihan derajatpenghalusan h, yaitu denganmembandingkan momen dari distribusisampel dan distribusi diperhalus (Kolen,1991: 261)Pemilihan h yang meminimalkan nilai

hErr menurut Hanson, adalah rumuspendekatan (aproksimasi) estimasi padapemilihan h pada validasi silang dan akanbekerja baik untuk sampel sekitar 1000(Hanson, 1990: 7-8).Cope dan Kolen, pada penelitiannya terhadapmetode-metode untuk mengestimasidistribusi skor-skor tes, membuktikan bahwa,jika h pada peng-halusan kernel, bertambahbesar maka distribusi skor yang diestimasimeskipun kurang melonjak-lonjak namunlebih menyimpang dari distribusi skorteramati (Cope dan Kolen, 1990: 7).Sebaliknya jika h kecil, menurut Ramsay,dengan prosedur validasi silang maka biasyang terjadi juga kecil (Ramsay, 1991: 618).

i. Metode penyetaraan ekipersentil berantaiMetode penyetaraan ekipersentil berantaimenurut Livingston, terdiri dari duapenyetaraan ekipersentil terpisah, di manasetiap tes disetarakan dengan tes jangkardalam sampel yang mengambil tes itu(Livingston, 1993: 24).



j. Metode penyetaraan ekipersentil estimasifrekuensiMenurut Harris dan Kolen, metodepenyetaraan ekipersentil estimasi frekuensi,membutuhkan pertimbangan distribusifrekuensi gabungan dari tes X dan tes jangkarinternal V (X,V) untuk peserta tes X dandistribusi frekuensi gabungan Y,V untukpeserta tes Y, sehingga diasumsikandistibusi dari tes X dan V sama untuk keduapeserta tes, demikian juga distibusi dari tes Ydan V sama untuk kedua peserta tes (Harrisdan Kolen, 1990: 62). Jadi menurut Dorans,distribusi gabungan dari skor-skor testersebut, diestimasi untuk suatu populasidengan suatu distribusi tertentu dari skor-skor tes jangkar (Dorans, 1990: 9).Oleh karena itu, menurut Harris dan Kolen,secara teoritikal metode penyetaraanekipersentil estimasi frekuensi lebih baik darimetode penyetaraan ekipersentil berantai,walaupun metode penyetaraan ekipersentilestimasi frekuensi secara praktikal lebih sukardimplementasikan, jika sampel berukuranbesar atau mikrokomputer yang digunakanmemiliki kapasitas penyimpanan terbatas(Harris dan Kolen, 1990: 70).

Jadi dari pembahasan di atas, beberapa hal yangperlu kita catat adalah: Penggunaan sampel berukuran 300 pada

penelitian ini, diduga merupakan sampelyang dianggap memadai, hanya karenadistribusi skor yang mungkin lebih halus,namun tidak termonitor keserupaan antaramomen sentral dari distribusi skor yangdiperhalus dan yang teramati (sedangkanperangkat lunak komputer yang mampusecara langsung memonitornya tidak ada).

Bahaya dari prapenghalusan ialah,hubungan penyetaraannya dapat menjadilebih buruk daripada hubungan penyetaraantanpa prapenghalusan.

Faktor-faktor yang berpengaruh padahubungan penyetaraan denganprapenghalusan ialah: ukuran sampel;pemilihan derajat penghalusan h; keserupaanantara momen sentral harus dapat dimonitor;dan validitas silang harus dilakukan denganmengunakan berbegai bentuk distribusi danukuran sampel (sedangkan hal ini tidak dapatdilakukan dan hanya tergantung data primersaja).

Disamping faktor-faktor di atas, maka padaprapenghalusan,

a. LL, harus digunakan beberapa model LLdan memilih model yang cocok dengankarakterisik data penelitian. Jadi,prapenghalusan tidak dapat hanyamenggunakan model log-lin SPSS X saja.

b. KN, meskipun pemilihan h sudahdilakukan dengan menggunakan rumuspendekatan Errh, namun rumus tersebutefektif jika ukuran sampel 1000. Hal inidapat diatasi dengan memilih h yangterkecil pada validitas silang.

Secara teoritis, metode EEF lebih baik darimetode EB, karena EEF mempertimbangkanpopulasi sintetiknya; sementara EB hanyamerupakan dua pernyataan terpisah, masing-masing tes jangkarnya.

Bagaimanapun, penghalusan danpenyetaraan sebagai proses statistikal,seringkali tidak dapat mempertahankanasumsi yang mendasarinya, sehinggasolusinya dapat menimbulkan missing danbukan inference, jika prasyarat pada modelmatematiknya tidak dipenuhi, misalnyaketepatan implementasi prapenghalusan.

Dari semua paparan di atas, pembahasan yangterkait dengan hasil penelitian ini adalah sebagaiberikut:1. Hipotesis 1, hipotesis 2, hipotesis 4 dan

hipotesis 5.Hipotesis 1: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan TPdan EB, lebih rendah, daripada dengan LLdan EB.Hipotesis 2: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan TPdan EB, lebih rendah, daripada yangmenggunakan KN dan EB.Hipotesis 4: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan TPdan EEF, lebih rendah, daripada dengan LLdan EEF. Hipotesis 5: Akurasi relatifpenyetaraan skor tes untuk sampel berukuran300, dengan TP dan EEF, lebih rendah,daripada dengan KN dan EEF.Hasil penelitian menjukkan hipotesis 1, 2, 4dan 5 gagal menolak H0. Dari pembahasan diatas, masuk akal jika prapenghalusan (LLdan EB) terkesan tidak efektif untuk menaikanakurasi penyetaraan skor tes.

2. Hipotesis 3: Akurasi penyetaraan skor tesuntuk sampel berukuran 300, dengan LL danEB, lebih tinggi, dengan KN dan EB.Hasil penelitian menjukkan hipotesis 3, gagalmenolak H0. Seperti diuraikan pada paparan



terdahulu, jika strategi pemilihan model LLtidak tepat karena hanya dilakukan denganprogram log-lin SPSS X (sementara program-program untuk menganalisis berbagai modelLL tidak ada), maka performans dariprapenghalusan LL berkemungkinan lebihburuk daripada performans prapenghalusanKN. Hal yang sama terjadi juga padapenggunaan prapenghalusan KN. Meskipunpemonitoran h dengan rumus pendekatansudah dilakukan, namun tidak dapatmemilih h terkecil dengan validitas silang.Diisadari bahwa hasil penelitian ini yangberhubungan dengan penghalusan danpenyetaraan sebagai proses statistikal,berkemungkinan menimbulkan salahinterpretasi dan tidak dapatmempertahankan asumsi yangmendasarinya, karena tidak dipenuhinyaprasyarat pada model matematik.

3. Hipotesis 6: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan LLdan EEF, lebih rendah daripada, dengan KNdan EEF.

Hasil penelitian menjukkan hipotesis 6gagal menolak H0. Sejalan denganpembahasan 3 (hipotesis 3.), denganmenggunakan metode penyetaraan apapun,termasuk metode EEF seharusnya cenderunglebih buruk daripada yang menggunakan KN.Akibatnya tidak dapat mempertahankanasumsi yang mendasarinya.

4. Hipotesis 7: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan TPdan EB, lebih rendah, daripada dengan TPdan EEF.Hasil penelitian menjukkan hipotesis 7menolak H0. Sesuai dengan paparan di atas,teoritikal metode EEF lebih baik daripadametode EB, walaupun metode EEF secarapraktikal lebih sukar diimplementasikan, jikaukuran sampel yang digunakan besar ataumikrokomputer yang digunakan memilikikapasitas penyimpanan terbatas

5. Hipotesis 8: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan LLdan EB, lebih tinggi, daripada dengan LL danEEF.Hasil penelitian menjukkan hipotesis 8, gagalmenolak H0. Jika penggunaan LL padapenelitian ini memadai dalam strategipemilihan modelnya serta derajatpenghalusannya, maka akurasi relatif

penyetaraan skor tes, dengan LL dan EB,diduga secara statistikal dan signifikan,berkemungkinan lebih tinggi daripadadengan LL dan EEF. Namun karenapenggunaan prapenghalusan baik LLmaupun KN tidak memenuhui prasyaratmaka akurasi relatif penyetaraannyacenderung sama.

6. Hipotesis 9: Akurasi relatif penyetaraan skortes untuk sampel berukuran 300, dengan KNdan EB, lebih rendah, daripada dengan KNdan EEF.Hasil penelitian menjukkan hipotesis 9, gagalmenolak H0. Jika derajat penghalusan KNdapat dimonitor sehingga dapat dipilih hyang kecil, dengan melakukan validitas silang(yang dalam penelitian ini tidak dapatdilakukan), maka akurasi penyetararaandengan KN dan EB cenderung lebih rendahdaripada akurasi relatif penyetaraan denganKN dan EEF. Namun, hasil penelitianmenunjukkan bahwa KN tidak memadaikarena nilai derajat penghalusan h umumnyarelatif besar, sehingga momen dari distribusiyang diestimasi akan lebih menyimpang darimomen distribusi sampel.

Dari paparan di atas dapat dikemukakan bahwapenelitian ini memiliki keterbatasan:1. Tidak tersedianya perangkat lunak untuk

memilih data yang memiliki keserupaanantara momen sentral dari distribusi skordiperhalus dan distribusi skor teramati,mengakibatkan salah satu prasyarat ketikadata itu disetarakan tidak dipenuhi.Akibatnya kesimpulan secara statistiskal,menimbulkan salah tanggap seolah-olahprapenghalusan tidak efektif, karena tidakmenaikkan akurasi relatif penyetaraan skortes, baik untuk metode penyetaraanekipersentil berantai maupun metodepenyetaraan ekipersentil estimasi frekuensi.

2. Pada penggunaan prapeng-halusan LL,dibutuhkan beberapa perangkat lunak modelLL, agar dapat dipilih model LL yang sesuaidengan distribusi datanya, tidak dimilikipada penelitian ini.

3. Pada penggunaan prapeng-halusan KN,pemonitoran derajat penghalusan tidakcukup hanya dilakukan dengan memonitornilai Errh dan harus dilakukan validitas

Keterbatasan Penelitian



silang, agar dapat dipilih derajat penghalusanyang relatif kecil sehingga menghasilkanmomen-momen distribusi data diperhalusdan momen-momen distribusi data teramati,tidak terlampau menyimpang. Sementara ini,validitas silang tidak dapat dilakukan karenaketerbatasan yang ada.

4. Pemilihan butir tes jangkar untuk pokok/subpokok bahasan tertentu sangat terbatas,sehingga sulit menyusun tes jangkar yangmerupakan miniatur dari tes-tes yangdisetarakan. yang memiliki keserupaan baikkonten maupun kedalaman meterinyadengan tes-tes yang disetarakan. Penelitianseharusnya dilakukan dalam semacamlaboratorium penelitian dan pengembanganpengukuran, yang mampu menyediakan datasimulasi (generated data) dengan berbagaiukuran dan bentuk distribusi. Dengan datasimulasi itu, penelitian tidak hanyatergantung pada data primer, dan dapatdilakukan validitas silang.

KesimpulanBerdasarkan hasil uji hipotesis yang telahdikemukakan di atas, dapat dikemukakanbeberapa kesimpulan sebagai berikut:Akurasi relatif penyetaraan skor tes untuk sampelsebesar 300, yang menggunakan TP dan EB, lebihrendah, daripada yang menggunakan TP danEEF.

ImplikasiDengan keterbatasan yang ada, sekolah ataupihakpihak lain, dapat mengupayakanpenyetaraan skor tes dengan:1. Menyusun dua bentuk tes, berdasarkan kisi-

kisi soal yang spesifikasinya sama.2. Tes jangkar dapat diambil dari soal-soal yang

telah divalidasi, yaitu soal-soal yang telah di-EBTANAS-kan atau di-UAN-kan, sesuaidengan pokok/subpokok bahasan yangditetapkan.

3. Pengumpulan data skor tes yang disetarakan,dilakukan dengan desain tes jangkarnonekivalen.

4. Penyetaraan dilakukan tanpaprapenghalusan dengan metode penyetaraanekipersentil estimasi frekuensi.

Sejalan dengan hal-hal yang dikemukakantersebut di atas maka:1. Yayasan pendidikan yang memiliki beberapa

sekolah filial, yang terdiri dari 10 kelassejenjang (dengan asumsi setiap kelas terdiridari 30 35 orang siswa);

2. sekolah-sekolah kecil yang terdiri dari hanyabeberapa kelas sejenjang, dapat bekerja samadengan sekolah atau sekolah-sekolah lain,sehingga diperoleh sampel sebanyak 300orang siswa, serta

3. Rayon atau Suku Dinas, atau DinasPendidikan yang melaksanakan UlanganUmum Bersama secara berkala, dengansampel hingga ribuan, dapat melakukanpenyetaraan skor tes dengan metodepenyetaraan ekipersentil estimasi frekuensi,sehingga setelah beberapa tahun dapatmemiliki kompilasi tes-tes yang setara, baikspesifikasi maupun standar kompetensinyayang dituntut, untuk beberapa pokok/subpokok bahasan, bahkan untuk ulanganumum, maupun ujian sekolah.

Kompilasi tes yang setara itu, dapatdigunakan untuk memonitor ketuntasanbelajar, memberikan ulangan susulan yangsetara, atau mengatasi kebocoran tes, namunjuga dapat me-metakan kecenderungan mutusiswa setiap tahun dengan membandingkankinerja siswa yang menggunakan kompilasites tersebut.

Saran1. Perlu dikembangkan semacam suatu

laboratorium pengukuran pendidikan, yangmampu mengembangkan dan menyediakandata simulasi, dengan berbagai ukuran sampeldan bentuk distribusi, serta dilengkapidengan berbagai perangkat lunak model log-linier dan perangkat lunak untuk memonitorderajat penghalusan.

2. Perlu dilakukan penelitian lebih lanjut,dengan ukuran sampel dan bentuk distribusiberbeda-beda dan pengaruh keserupaan tesjangkar dengan tes secara keseluruhanterhadap akurasi penyetaraan.

3. Perangkat lunak untuk penyetaraan skor tesdan penghalusan, dapat di-peroleh denganmudah dan murah, untuk penelitian lebihlanjut maupun untuk kebutuhan pihak yangmembutuhkannya.

4. Upaya untuk melakukan penyetaraan skortes, seyogianya sudah dimulai dilakukan olehsekolah-sekolah, baik mandiri maupun

Kesimpulan, Implikasi dan Saran



secara bersama-sama. Dengan upaya itu,setelah beberapa tahun guru maupunsekolah, memiliki kompilasi tes yang setara.

5. Perlu dilakukan penelitian terhadappenyetaraan dengan bentuk soal esaiterstruktur.

Angoff, W. H. (1984). Scales, norms and equivalentscores. Princeton, N. J. Educational TestingService

Barnard, John J. (1996). In search for equity in educa-tional measurement: traditional versus modernequating methods. Makalah disampaikanpada ASEESA National Conference di HSRCConference Centre. Pretoria, Afrika Selatan

Braun, H. I. dan Holland P. W. Observed score testequating: A mathematical analysis of some ETSequating procedure. Test equating, ed. P.W.Holland dan D.B. Rubin, 9-49, New York:Academic, 1982

Cook, L. L. dan Peterson, N. S. Problem related to theuse of conventional and item response theoryequating methods in less than optimal circum-stances. Applied psychoogical measurement,Vol. 11, No. 3, 225 244, 1987

Cope, R. T. dan Kolen, M. J. A study of methods forestimating distributions of test scores, laporanriset ACT. 90-5. Iowa City, I.A: AmericanCollege Testing Program, 1990

Crocker, Linda dan Algina, James. (1986). Introduc-tion to classical and modern test theory. NewYork: Hold, Rinehart and Wiston

Dorans, N. J. Equating methods and sampling designs:Applied measurement in Education, Vol. 3. No.1, 3 17, 1990

Grounlund, Norman E. (1985). Measurement andevaluation in teaching 5th edition. New York:Macmillan Publishing Company

Hambleton, R. K. dan Swaminathan, H. (1985). Itemresponse theory: Principles and applications.Boston: Kluwer

Hanson, Bradley A. An investigation of methods forimproving estimation of Test score distributions.Seri laporan penelitian ACT, No. 90-4, 1990

Hansons, Bradley. A., Zeng, Lingjia dan Colton,Dean. (1994). A comparison of presmoothingand postsmoothing methods in equipercentileequating. Laporan riset ACT. 94-4, Iowa City,I.A: American College Testing Program

Harris Deborah J. dan Kolen, Michael J. A compari-son of two equipercentile equating methods for

common item equating. Educational and psy-chological measurement, Vol. 50, 1990

Holmes, Susan E. Unidimensionality and verticalequating with the rasch model. Journal of educa-tional measurement, Vol. 19, No. 2 139-147,Summer 1982

James, Glen (ed.). (1976). Mathematics dictionary 4thedition. New York: Van Nostrand ReinholdCompany

Jarjoura David dan Kolen, Michael J. Standard er-rors of equipercentile equating for the commonitem nonequivalent populations design. Journalof Educational Statistics, Vol. 10, No. 2, 1985

Kennedy, J. J. dan Ping Tam, Hak. (1997). Log-lin-ear models, educational research, methodologyand measurement. Ed. John P. Keeves, 571 580. Oxford: Elsevier Science Ltd.

Kolen, M. J. Effectiveness of analytic smoothing inequipercentile equating. Journal of EducationalStatistic, Vol. 9. No. 1, 25 44, 1984

Kolen, M. J.Tradisional equating methodology, educa-tional measurement: Issues and practice, Vol. 7No. 4, 29 36, 1988

Kolen, M. J. Smoothing methods for estimating test scoredistributions. Journal of educational measure-ment, Vol. 28. No. 3, 257 282, 1991

Kolen, M. J. dan Brennan, R. L. (1995).Test equatingmethods and practice. New York: Springer-Verlag New York Inc.

Kolen, M. J. dan Jarjoura, David. Analytic smooth-ing forequipercentile equating under the com-mon item nonequivalent population design.Psychometrika, Vol. 52, No. 1, 43-59, 1987

Livingston, Samuel A. Small-sample equating withlog-linear smoothing. Journal of EducationalMeasurement, Vol. 30, No. 1, 23 39, 1993

Livingston, S. A. dan Feryok, N. J. Univariate versusbivariate smoothing in frequency estimationequating. Laporan riset No. 87 36.Princeton, N. J: Education Testing Service,1987

Livingstone, S. A., Doran, N. J. dan Wright, N. K.What combination of sampling and equatingmethods work best?. Applied measurement ineducation, Vol. 3, 73 95, 1990

Lord, F.M. The standard error of equipercentile equat-ing. Journal of educational statistics, Vol. 7, 165 174, 1982

Murti, Bhisma. (1996). Penerapan metode statistiknonparametrik dalam ilmu- ilmu kesehatan.Jakarta: Penerbit Gramedia Pustaka Utama

Naga, Dali S. (1992). Pengantar teori sekor. Jakarta:Gunadarma

Naga, Dali S. Statistik terapan revisi tahun 2002

Daftar Pustaka



(diktat kuliah di Universitas Tarumanagaradan Universitas Indonesia)

Petersen, Nancy S., Kolen, M. J. dan Hoover, H. D.Scaling, norming and equating. Educationalmeasurement 3rd Edition, ed. Robert L. Linn,221262. New York: Macmillian PublishingCompany, 1989

Ramsay, J.O. Kernel smoothing approches tononparamatric item characteristic curve estima-tion. Psychometrika, Vol.56, no. 4. 1991

Scheuneman, J. D. dan Bleistein, C. A. (1999). Itembias. Advanced in measurement in educationalresearch and assessment, ed. Geoffrey N. Mas-ters dan John P. Keeves, 220 234.Amsterdam: Pergamon

Setiadi, Hari. (1997). Small sample IRT item param-eter estimates. Disertasi Universitas Massa-chusetts Amherst, tidak dipublikasikan

Skaggs, G. dan Lissitz, R. W. IRT test equating rel-evant issues and a review of recent research. Re-view of educational research, Vol. 56, No. 4,495 529. 1986

Snedecor, George W. dan Cochran, William C.(1982). Statiscal methods 7th edition. Ames,Iowa: The Iowa State University Press

Steel, Robert G. D. dan Torrie, James H. (1991). Prin-ciples and procedure of statistic (alih bahasaBambang Sumantri). Jakarta: PT. Gramedia

Suryadibrata, Sumadi. Penggunaan bentuk soalPilihan ganda dalam ujian. Bulletin Pengujiandan Penilaian, Januari, 1995

Swediati, Nonny. Metode untuk pensetaraan (Equat-ing) skor tes secara klasik. Jakarta: PusatPengujian Balitbang Dikbud, Maret 1997

Wright, Benyamin D. A history of social science mea-surement, MESA Psychometric Laboratory

Hal. 1-19 Akurasi Relatif

Documents

Transcript of Hal. 1-19 Akurasi Relatif