PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

13
207 PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TES BERDASARKAN TEORI RESPON BUTIR Syahrul, Mansyur, dan Rosdiyanah Fakultas Teknik Universitas Negeri Makassar email: [email protected] Abstrak Penelitian ini bertujuan untuk mengetahui hasil penyetaraan tes berdasarkan perbedaan jumlah butir anchor dan prosedur mendapatkan penyetaraan tes berdasarkan equateIRT. Jenis penelitian ini adalah exploratif yaitu mengungkap kesetaraan skor tes berdasarkan teori respon butir. Instrumen yang digunakan dalam penelitian ini adalah enam paket soal Fisika. Penelitian ini dilaksanakan pada enam SMA di Kabupaten Gowa. Jumlah subjek penelitian sebanyak 1420 siswa. Desain penyetaraan memilih Common-Item Nonequivalent Group, estimasi parameter menggunakan model logistik dua parameter (2PL), dan penyetaraan tes dengan menggunakan equateIRT. Hasil penelitian menunjukkan bahwa koefisien penyetaraan α dan β yang dihasilkan oleh paket soal dengan 16 butir soal anchor (40%) lebih mendekati α = 1 dan β = 0. Standard error yang dihasilkan oleh paket soal dengan 16 butir anchor lebih kecil dibandingkan dengan paket soal dengan 10 dan 12 butir anchor. Hal ini berarti bahwa paket soal dengan jumlah butir anchor yang lebih banyak menghasilkan penyetaraan yang lebih akurat. Kata kunci: butir anchor, penyetaraan tes, teori respon butir THE INFLUENCE OF ANCHOR ITEM TOWARD THE EQUATING TESTS OUTCOMES BASED ON ITEM RESPONSE THEORY Abstract This study was aimed at finding out the equating test outcome based on the differences of numbers of anchor items and procedures to obtain equivalency tests based on equate IRT. This was an explorative research on the equality of test scores based on the item response theory. The instrument used in this study included six test packages of Physics. The research was conducted at six senior high schools in Gowa regency. The subjects were 1,420 students. The equating design used was Common-Item non-equivalent Group, while the parameter estimation used was the two-parameter logistic model (2PL), and test equating used was equate-IRT. The research results show that the equalization coefficients α and β are generated by a package of 16 items about the anchor (40%) approximates α = 1 and β = 0. The standard error generated bythe package of 16 items about the anchor is smaller than the package about with 10 and 12 point anchor. This means that a package about the amount of grains that produces more anchors produces more accurate equalization. Keywords: anchor item, test equating, item response theory

Transcript of PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

Page 1: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

207

PENGARUH JUMLAH BUTIR ANCHOR TERHADAP HASIL PENYETARAAN TESBERDASARKAN TEORI RESPON BUTIR

Syahrul, Mansyur, dan RosdiyanahFakultas Teknik Universitas Negeri Makassar

email: [email protected]

AbstrakPenelitian ini bertujuan untuk mengetahui hasil penyetaraan tes berdasarkan perbedaanjumlah butir anchor dan prosedur mendapatkan penyetaraan tes berdasarkan equateIRT.Jenis penelitian ini adalah exploratif yaitu mengungkap kesetaraan skor tes berdasarkanteori respon butir. Instrumen yang digunakan dalam penelitian ini adalah enam paketsoal Fisika. Penelitian ini dilaksanakan pada enam SMA di Kabupaten Gowa. Jumlahsubjek penelitian sebanyak 1420 siswa. Desain penyetaraan memilih Common-ItemNonequivalent Group, estimasi parameter menggunakan model logistik dua parameter(2PL), dan penyetaraan tes dengan menggunakan equateIRT. Hasil penelitian menunjukkanbahwa koefi sien penyetaraan α dan β yang dihasilkan oleh paket soal dengan 16 butirsoal anchor (40%) lebih mendekati α = 1 dan β = 0. Standard error yang dihasilkan olehpaket soal dengan 16 butir anchor lebih kecil dibandingkan dengan paket soal dengan 10dan 12 butir anchor. Hal ini berarti bahwa paket soal dengan jumlah butir anchor yanglebih banyak menghasilkan penyetaraan yang lebih akurat.Kata kunci: butir anchor, penyetaraan tes, teori respon butir

THE INFLUENCE OF ANCHOR ITEM TOWARD THE EQUATING TESTSOUTCOMES BASED ON ITEM RESPONSE THEORY

AbstractThis study was aimed at fi nding out the equating test outcome based on the differencesof numbers of anchor items and procedures to obtain equivalency tests based on equateIRT. This was an explorative research on the equality of test scores based on the itemresponse theory. The instrument used in this study included six test packages of Physics.The research was conducted at six senior high schools in Gowa regency. The subjectswere 1,420 students. The equating design used was Common-Item non-equivalentGroup, while the parameter estimation used was the two-parameter logistic model (2PL),and test equating used was equate-IRT. The research results show that the equalizationcoeffi cients α and β are generated by a package of 16 items about the anchor (40%)approximates α = 1 and β = 0. The standard error generated bythe package of 16 itemsabout the anchor is smaller than the package about with 10 and 12 point anchor. Thismeans that a package about the amount of grains that produces more anchors producesmore accurate equalization.Keywords: anchor item, test equating, item response theory

Page 2: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

208

PENDAHULUANPengukuran hasil belajar di sekolah

terutama hasil belajar kognitif dilakukandengan menggunakan alat ukur yangdinamakan tes. Alat ukur yang baikmemberikan hasil yang konstan biladigunakan berulang-ulang, jika kemampuanyang diukur tidak berubah. Ketepatan alatukur dapat dilihat dari konstruk alat ukur,yaitu mengukur seperti yang direncanakan.Pengukuran yang tepat dapat memberikaninformasi yang akurat mengenai penguasaanseseorang atau sekelompok orang terhadapmateri yang dipelajari dan informasi ituberguna untuk membuat sebuah keputusanpendidikan.

Pengukuran modern bertujuan untukmenghilangkan kelemahan pada pengukuranklasik. Tujuan utama pengukuran modernadalah melepaskan keterpisahan di antarabutir uji tes dengan peserta uji tes. Denganpengukuran modern ini, ciri butir akantetap sama, tidak menjadi soal peserta yangmenempuhnya. Demikian pula, ciri pesertaakan tetap sama, tidak menjadi soal butiryang ditanggapainya.

Salah satu jenis pengukuran modernyang cukup terkenal adalah teori responbutir yang dikembangkan atas dasar duapostulat yaitu: (1) performansi subjekpada suatu butir dapat diprediksikan olehseperangkat faktor yang disebut latenttrait atau kemampuan dan (2) hubunganperformansi subjek pada suatu butir danperangkat kemampuan laten yang men-dasarinya digambarkan oleh fungsi naikmonoton yang disebut Item CharascteristicCurve (ICC). Selain itu, asumsi-asumsiyang melandasi teori respon butir adalahunidimensi, independensi lokal, dan fungsikarakteristik butir atau kurva karakteristikbutir (Hambleton, Swaminathan, & Rogers,1991).

Penilaian hasil belajar peserta didikpada dasarnya merupakan bagian integral

dari proses pembelajaran (Taruno, 2014).Seringkali dijumpai di sekolah, pesertates harus diukur dengan tes yang berbeda,meskipun tes-tes itu belum tentu ekivalendan diharapkan dapat diukur sifat sertatuntutan pencapaian hasil yang dapatdibandingkan. Hal ini terjadi, misalnya padasituasi sekolah yang memiliki beberapakelas paralel yang diajar oleh guru yangberbeda atau ketika guru memberikanulangan susulan kepada siswa-siswa yangabsen pada saat ulangan dilaksanakan.Meskipun sampai taraf tertentu, kesetaraanbeberapa tes dapat diupayakan pada saatmenyusun tes-tes itu sendiri. Akan tetapi,umumnya variasi taraf kesukaran antartestetap terjadi.

Kenyataan menunjukkan bahwa masihbanyak guru belum mengetahui prosedurpembuatan tes yang baik (Syahrul, 2014).Kebanyakan tes disusun dalam jangkawaktu yang sangat singkat bahkan adajuga yang mengadopsi langsung butir-butir tes yang telah tersedia dalam bukupanduan belajar sehingga perangkat tesyang digunakan oleh guru tidak dapatmengukur yang sebenarnya akan diukur.Seorang guru harus mengetahui dasar-dasar penyusunan tes prestasi belajar yangbaik agar dapat memperoleh hasil ukuryang akurat (valid) dan dapat dipercaya(reliabel).

Dalam penyelenggaraan evaluasihasil belajar, guru terkadang kesulitanuntuk menyelenggarakan tes, misalnya tesformatif, sumatif, dan tes kenaikan kelasuntuk kelas pararel yang cukup banyak. Paraguru menggunakan satu perangkat tes sajasehingga tidak menutup kemungkinan siswasaling mencontek atau terjadi kebocoransoal. Kondisi tersebut berakibat padapemberian nilai/skor terhadap hasil belajarsiswa tidak mencerminkan kemampuansebenarnya. Hal ini seperti dikemukakanoleh Rosana dan Sukardiyono (2015) bahwa

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 3: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

209

ada kalanya skor peserta didik tidak sesuaidengan kemampuannya yang sebenarnya.Penyebabnya dapat diakibatkan olehpermasalahan yang muncul dari pesertadidik dan dapat juga diakibatkan olehkualitas butir tes yang diberikan padamereka sehingga nilai yang diberikankepada siswa atau peserta tes lebih tinggiatau lebih rendah dari kemampuan prestasisebenarnya.

Untuk menghindari situasi demikian,para guru juga membuat lebih darisatu perangkat tes (tes paralel) yangmemiliki kisi-kisi yang sama dan untukmengukur tingkat kemampuan yang sama.Akan tetapi, para guru belum memilikikemampuan untuk melakukan analisisbutir soal, terutama untuk menentukanperangkat-perangkat tes tersebut memilikikarakteristik yang berbeda atau sama dalamhal validitas, reliabilitas, tingkat kesukaran,maupun daya pembeda.

Mansyur, Soeratno, dan Harun (2015)mengemukakan bahwa masalah yangterjadi dalam praktik penilaian adalahdalam menafsirkan hasil pengukuran,dua atau beberapa perangkat tes seringdiperlakukan sama, tanpa memperhatikantingkat kesukaran perangkat tes yangdigunakan. Masalah tersebut dapat diatasidengan melakukan penyetaraan skor yangdiperoleh dari peserta yang mengambiltes-tes itu. Sebagaimana dikemukakanoleh Miyatun & Mardapi (2000) tingkatkesetaraan perangkat tes yang berbeda akandapat diketahui melalui proses penyetaraan.

Uraian di atas menggambarkan bahwapenyetaraan tes juga diperlukan oleh paraguru di sekolah. Penyetaraan tes dirasakankegunaannya mengingat mutu pendidikan(khususnya di Sulawesi Selatan) belummerata dengan keadaan geografis yangcukup luas. Tingkat kesetaraan tes dapatdiperoleh melalui pengembangan tes yangsetara. Namun demikian, tes tersebut

dihadapkan pada perbedaan tingkatkesukaran dan perbedaan populasi yangdijadikan sasaran pelaksanaan. Oleh sebabitu, perlu dilakukan penyesuaian terhadapparameter-parameter tes dalam suatu skalayang sama dan penyesuaian skor tes dalamskala yang sama sehingga skor pada tesyang satu dapat dipertukarkan dengan skorpada tes lainnya.

Sukirno (2007) mengemukakan bahwamelalui proses penyetaraan diperolehbeberapa keuntungan, di antaranya pertama,dapat digunakan perangkat tes yang berbedaterhadap kelompok yang berbeda sesuaidengan tingkat kemampuannya sehinggaskor yang diperoleh dapat dibandingkan.Selain itu, peserta tes tidak merasa dirugikanatau diuntungkan karena mendapat tes yanglebih sukar atau lebih mudah. Kedua,bila terjadi kebocoran tes dari suatuperangkat tes tertentu dapat segera digantidengan perangkat tes yang lain yangsudah diketahui konstanta konversinya.Jika kesetaraan paket tes sudah diketahui,pengukuran dapat dilakukan pada tempatdan waktu yang berbeda.

Dorans, Moses, dan Eignor (2010)mengatakan bahwa penyetaraan adalahbentuk kuat untuk menghubungkan antaraskor pada dua tes. Tujuan penyetaraanadalah untuk menghasilkan skor pada duabentuk tes sehingga skor dari setiap tesdapat diperbandingkan dari pengujian yangsama. Suatu keharusan bagi pengembangtes atau lembaga tes untuk menyetarakanperangkat tes tersebut.

Penyetaraan adalah proses statistikyang digunakan untuk mengatur skor padaformat-format tes sehingga skor padaformat tersebut dapat diperbandingkan(Kolen & Brennan, 2014). Hambleton,Swaminathan, dan Rogers (1991)menyatakan bahwa penyetaraan skoradalah membandingkan skor yangdiperoleh dari perangkat tes yang satu

Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Page 4: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

210

(X) dan perangkat tes lainnya (Y) yangdilakukan melalui proses penyetaraan skorpada kedua perangkat tes tersebut.

Proses penyetaraan dari beberapaperangkat tes (equating) dapat dilakukandengan dua cara, yaitu penyetaraan secarahorizontal dan penyetaraan secara vertikal(Croker & Algina, 2006). Proses penyetara-an yang diperoleh dari dua perangkat tesyang berbeda tetap mengukur hak yangsama dinamakan penyetaraan horizontal.Adapun proses penyetaraan dari duakelompok peserta tes yang berbeda tingkat/jenjang pendidikannya, namun diberikanperangkat soal yang sama dinamakanpenyetaraan vertikal.

Dalam pelaksanaannya, prosespenyetaraan tes dilakukan berdasarkanpendekatan klasik dan modern. Untukpendekatan klasik, proses penyetaraan tesdigunakan teori “true story” dan untukpendekatan modern digunakan teori responbutir (Item Response Theory) atau LatentTrait Theory. Proses penyetaraan denganpendekatan klasik dapat dilaksanakandengan mempergunakan tiga metode,yaitu (1) penyetaraan secara linier, (2)penyetaraan secara equipersentil, dan (3)penyetaraan secara curvalinear.

Lord (1980, p. 199) mengungkapkantiga prinsip dasar untuk penyetaraan duates, sebagai berikut. (1) Kesetaraan (equity),untuk setiap kelompok peserta tes dengankemampuan yang sama, kondisi distribusifrekuensi skor pada tesY setelah transformasiadalah sama dengan distribusi frekuensiskor pada tes X. (2) Population Invariance,hubungan penyetaraan (transformasi) harussama tanpa memperhatikan kelompokpeserta tes (populasi) yang digunakan. (3)Simetri (symmetry), penyetaraan itu harussama tanpa memperhatikan tes yang diberilabel X atau diberi label Y atau transfor-masi dapat dibalik, artinya memetakanskor dari tes bentuk X ke tes bentuk Y sama

dengan memetakan skor dari tes bentuk Yke bentuk X.

Cook dan Eignor (1991) menyatakanbahwa prosedur penyetaraan dengan teorirespon butir dapat dikelompokkan dalamtiga tahapan proses, yaitu: memilih desainpengumpulan data, penempatan parameterestimasi pada skala yang sama, danpenyetaraan skor tes. Selanjutnya, dalamdesain common-item nonequivalent groupyang juga dikenal dengan desain anchortest bahwa dua kelompok peserta tes yangberbeda, masing-masing memperolehnaskah tes yang berbeda pula, dan padasetiap naskah tes berisi kumpulan anchoritem yang disebut dengan anchor test.

Anchor item adalah butir-butir soalyang sama di beberapa perangkat tes danberbaur dengan butir yang nonanchor.Kelompok peserta tes tidak harus dipilihsecara random dari populasi yang samakarena dalam praktiknya sering tidak sama.Hal tersebut sesuai dengan pendapat Kolen& Brennan (2014) bahwa desain common-item nonequivalent group menjelaskankelompok peserta tes tidak harus dipilihsecara random dari populasi yang sama dandi dalam praktik sering tidak sama. Kondisitersebut merupakan salah satu keuntungandari desain ini karena dalam keperluanpraktik seringkali ditemui kondisi distribusikemampuan kelompok berbeda.

Ketika desain anchor item diguna-kan, hendaknya memperhatikan sifatdan karakteristik dari anchor item danpenggunaan skornya. Anchor item harusmenggambarkan miniatur tes yangdisetarakan dan item tersebut relatif beradapada nomor urut yang sama, baik padanaskah tes yang pertama maupun naskahtes lainnya. Livingston sebagaimana dikutipoleh Hayati dan Mardapi (2014) menyatakanbahwa pertanyaan yang dimasukkan dalambutir anchor harus menggambarkan secaralengkap tingkat kesukaran dari butir soal,

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 5: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

211

dikarenakan hasil equiting tidak dapattepat jika hanya memasukkan soal yangmemiliki tingkat kesulitan tinggi atausoal yang memiliki tingkat kesulitanrendah. Sementara itu, jumlah anchor itemdisarankan 20% dari panjang tes untukmodel tes yang diskor secara dikotomus(Kolen & Brennan, 2014).

Hasil penelitian berkenaan denganjumlah anchor item yang digunakanpada penyetaraan tes model politomustelah dilakukan oleh Swediati (1997)yang menyimpulkan bahwa estimasiparameter yang rendah membuat sulituntuk menyamakan tes yang diberikankepada kelompok ujian yang sangatberbeda dalam kemampuan, terutama jikates yang relatif singkat dan jumlah itemanchor kecil. Kolen dan Brennan (2014)menyatakan bahwa jumlah anchor itemyang besar akan lebih mencerminkan tesdan ketika kedua tes yang sama diujikankepada dua kelompok peserta tes, tidakperlu dilakukan penyetaraan karena skortes yang dihasilkan berada dalam skalayang sama. Hal ini menggambarkan bahwakeseluruhan item dari kedua naskah tersebutberfungsi sebagai anchor item.Dengandemikian, ketika jumlah anchor itemsemakin mendekati jumlah butir dari suatutes maka kualitas penyetaraan semakinakurat. Demikian juga dengan posisi anchoritem, mempengaruhi kualitas penyetaraansehingga posisi anchor item pada keduanaskah tes harus ditempatkan pada nomoritem yang sama (Kolen & Brennan, 2014).Berdasarkan uraian di atas, pada penelitianini dikaji tentang perbedaan akurasi hasilpenyetaraan tes berdasarkan perbedaanjumlah anchor item (25%, 30%, dan 40%)dengan menggunakan teori respon butir.

METODEPenelitian ini adalah penelitian eksplo-

ratif untuk mengungkapkan karakteris-

tik soal fisika dengan menggunakanmodel logistik dua parameter (2PL) untukkesetaraan tes dengan metode equate-IRT menggunakan software program R.Penelitian dilaksanakan selama dua bulan(Januari sampai dengan Februari 2016)pada enam Sekolah Menengah Atas (SMA)di Kabupaten Gowa Sulawesi Selatan,yaitu SMA Negeri 1 Sungguminasa,SMA Negeri 2 Sungguminasa, SMANegeri 3 Sungguminasa, SMA Negeri 2Tinggimoncong, SMA Negeri 1 Bajeng,dan SMA Negeri 1 Bajeng Barat.

Prosedur dalam penyetaraan tes terdiridari beberapa tahap. Tahap pertama,pemilihan jenis penyetaraan. Dalam hal ini,jenis penyetaraan yang digunakan adalahpenyetaraan horizontal, yakni penyetaraanyang dilakukan terhadap tingkat ataujenjang pendidikan yang sama (kelasXII IPA). Tahap kedua, pemilihan desainpenyetaraan. Dalam hal ini, desain yangdigunakan adalah desain Common-ItemNonequivalent. Desain Common-ItemNonequivalent ini merupakan desain yangmenggunakan dua kelompok peserta tesyang berbeda dan dua perangkat tes yangberbeda, yaitu paket 01 dan paket 02 ataupaket 03 dan paket 04 atau paket 05 danpaket 06. Kedua paket tersebut berisikumpulan butir bersama atau yang disebutdengan anchor item. Jumlah anchor itemyang digunakan adalah 10 butir atau 25%untuk soal paket 01 dan paket 02, 12 butiratau 30% untuk soal paket 03 dan paket04, dan 16 butir atau 40% untuk soal paket05 dan paket 06. Jumlah butir setiap paketadalah 40 butir tes. Tahap ketiga, dilakukanestimasi parameter model 2 parameterdengan menggunakan program R (libraryltm). Hal ini untuk melihat daya beda dantingkat kesulitan pada paket 01 dan paket02, paket 03 dan 04, dan paket 05 dan paket06. Tahap keempat, proses equating ataupenyetaraan.

Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Page 6: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

212

Data dalam penelitian ini adalah respon(lembar jawaban) siswa SMA pesertates di Kabupaten Gowa Tahun Pelajaran2015/2016. Subjek penelitian terdiri atas1420 orang (lembar jawaban) siswa denganrincian sebagai berikut. Pertama, paket 01sebanyak 240 orang peserta tes dan paket02 sebanyak 235 orang peserta tes. Kedua,paket 03 sebanyak 246 orang peserta tesdan paket 04 sebanyak 239 orang pesertates. Ketiga, paket 05 sebanyak 240 orangpeserta tes dan paket 06 sebanyak 230 orangpeserta tes. Data pasangan paket (misalnyapaket 01 dan 02) pada program R dianalisismelalui equateIRT. Hasil analisis dariequating ini akan menunjukkan daya bedadan tingkat kesulitan dengan butir anchorpada masing-masing paket soal.

HASIL PENELITIAN DAN PEMBAHASANAnalisis butir berdasarkan teori respon

butir yang dilakukan dengan menggunakanProgram R versi. 3.2.2. Analisis inimenggunakan model 2 parameter (2P)yang menghasilkan karakteristik butiryang meliputi tingkat kesulitan butir,daya pembeda butir, dan penyetaraan tes.Berdasarkan hasil pengolahan data yangtelah dilakukan, karakteristik tingkatkesulitan dan daya pembeda masing-masingpaket soal dielaborasi sebagai berikut.

Mencermati hasil pengolahan dataditinjau dari tingkat kesulitan soal,diperoleh untuk paket 01 sebanyak 2 butir(5%) tingkat kesukaran butir soal beradapada kategori sangat mudah, 3 butir(7,5%) kategori mudah, 23 butir (57,5%)pada kategori sedang, dan 12 butir (30%)kategori sukar. Untuk paket 02 diperolehbahwa 2 butir (5%) tingkat kesukaran butirsoal berada pada kategori sangat mudah,3 butir (7,5%) kategori mudah, 30 butir(75%) kategori sedang, 4 butir (10%)kategori sukar, dan 1 butir (2,5%) kategorisangat sukar. Ditinjau dari daya pembeda

butir, untuk paket 01 diperoleh dayapembeda yang bervariasi dengan rincian38 butir (95%) tergolong sangat baik dan2 butir (5%) berkategori baik. Pada paket02 diperoleh daya pembeda dengan tigavariasi, yaitu 35 butir (87,5%) tergolongsangat baik, 1 butir (2,5%) tergolong baik,dan 4 butir (10%) tergolong buruk.

Berdasarkan hasil pengolahan datayang dilakukan diperoleh bahwa tingkatkesulitan soal untuk paket 03, yaitu 4butir (10%) kategori sangat mudah, 3 butir(7,5%) kategori mudah, 26 butir (65%)kategori sedang, 6 butir (15%) kategorisukar dan 1 butir (2,5%) kategori sangatsukar. Untuk paket 04, tingkat kesulitan soalterdiri atas 3 butir (7,5%) kategori sangatmudah, 3 butir (7,5%) kategori mudah,30 butir (75%) kategori sedang, 3 butir(7,5%) kategori sukar, dan 1 butir (2,5%)kategori sangat sukar dari 40 butir soal yangdianalisis. Karakteristik daya pembeda butirsoal untuk paket 03 terdiri atas dua kategori,yaitu 38 butir (95%) kategori sangat baikdan 2 butir (5%) kategori buruk. Untukpaket 04, diperoleh daya pembeda yangbervariasi, yaitu 37 butir (92,5%) kategorisangat baik, 1 butir (2,5%) kategori baik,dan 2 butir (5%) kategori buruk.

Hasil analisis karakteristik paket soal05 menunjukkan bahwa tingkat kesulitanbutir soal diperoleh 3 butir (7,5%) kategorisangat mudah, 11 butir (27,5%) kategorimudah, 16 butir (40%) kategori sedang,6 butir (15%) kategori sukar, dan 4 butir(10%) kategori sangat sukar. Untuk paket06, terdapat 1 butir (2,5%) kategori sangatmudah, 3 butir (7,5%) kategori mudah,27 butir (67,5%) kategori sedang, 5 butir(12,5%) kategori sukar, dan 1 butir (2,5%)kategori sangat sukar. Karakteristik dayapembeda butir soal untuk paket 05 dari 40butir soal yang dianalisis, terdapat 37 butir(92,5%) kategori sangat baik dan 3 butir(7,5%) berkategori buruk. Untuk paket 06,

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 7: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

213

diperoleh daya pembeda yang bervariasiyaitu 35 butir (87,5%) kategori sangatbaik, 2 butir (5%) kategori baik, dan 3 butir(7,5%) kategori buruk.

Sebagaimana dikemukakan sebelum-nya, proses penyetaraan parameter butir soalpaket 01dan paket 02 dengan banyaknyaanchor item 25%, paket 03 dan 04 dengananchor item sebanyak 30% serta paket 05dan 06 dengan anchor itemsebanyak 40%,dilakukan dengan menggunakan library ltm(EquateIRT) pada Program R dan modellogistik 2 parameter. Parameter butir yangdiperhatikan yakni tingkat kesulitan butirdan daya pembeda butir dengan butiranchor pada masing-masing paket soal.

Berdasarkan hasil penyetaraan paket01 dan paket 02 dengan anchor item 25%dan metode Haebara pada EquateIRTterungkap bahwa kedua paket tersebutmemiliki tingkat kesulitan yang berbeda.Paket 01 lebih sulit dari paket 02. Olehkarena itu, persamaan yang terbaik dengan

tidak merugikan peserta didik adalahpersamaan dari paket sulit ke paket mudahdengan persamaan b*

X2 = (1.00820).

bX1

+(-0.36996). Dengan formula tersebut,diperoleh grafik penyetaraan tingkatkesulitan paket 01 dan paket 02 seperti yangdisajikan pada Gambar 1.

Mencermati informasi yang disajikanpada Gambar 1, tampak bahwa hasilpenyetaraan tingkat kesulitan antara paket01 dengan paket 02. Garis paket 01 di atasgaris paket 02. Hal ini menunjukkan bahwapaket soal dengan tingkat kesulitan rendahakan berada di bawah nilai kriteria karenaproses equating yang dilakukan dari paketsoal yang sulit ke paket soal yang mudah.Sebaliknya, paket soal dengan tingkatkesulitan tinggi akan berada di atas nilaiyang menjadi kriteria. Dengan kata lain,proses equating dilakukan dari paket soalyang mudah ke paket soal sukar.

Ditinjau dari daya pembeda butir,hasil penyetaraan paket 01 dan paket 02

Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Gambar 1. Grafi k Tingkat Kesulitan Paket 01 dan Paket 02 Anchor Item 25%

Penyetaraan Tes (Anchor 25%)2,42,2

21,81,61,41,2

10,80,60,40,2

0-0,2-0,4-0,6-0,8

-1-1,2-1,4-1,6-1,8

-2-2,2-2,4-2,6-2,8

-3

(b)

Paket 01Paket 02

Page 8: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

214

dengan anchor 25% metode Haebara padaEquateIRT terungkap bahwa soal paket01 mampu membedakan kemampuanpeserta yang tinggi dengan kemampuanpeserta yang rendah. Soal pada paket 02mampu membedakan kemampuan pesertayang tinggi dengan kemampuan pesertayang rendah, dengan persamaan (a*X2=a_X1/1.00820). Dengan formula tersebut,akan diperoleh grafi k penyetaraan dayapembeda butir paket 01 dan paket 02 yangberhimpit. Artinya, hasil penyetaraandaya beda antara paket 01 dengan paket02 berimpit. Hal ini menunjukkan bahwakedua paket soal berada pada kategoritingkat daya beda yang sama. Pola gariskedua paket soal mengarah ke nilai positif,artinya kedua paket soal dapat membedakanpeserta antara kemampuan yang tinggidengan kemampuan rendah.

Berkaitan dengan penyetaraan soalpaket 03 dan paket 04 dengan anchor item30% terungkap bahwa kedua paket tersebutmemiliki tingkat kesulitan yang berbeda.Paket 03 lebih sulit dibandingkan denganpaket 04. Oleh karena itu, persamaanyang terbaik dengan tidak merugikanpeserta didik adalah persamaan dari paketsulit ke paket mudah dengan persamaanb*X4=(0.800241).bX3+(-0.077775).Dengan formula tersebut, diperoleh grafi kpenyetaraan tingkat kesulitan paket 03 danpaket 04 seperti disajikan Gambar 2.

Mencermati informasi yang disajikandalam Gambar 2, tampak hasil penyetaraantingkat kesulitan antara paket 03 denganpaket 04. Garis paket 03 di atas garispaket 04. Hal ini menunjukkan bahwapaket soal dengan tingkat kesulitan rendahakan berada di bawah nilai kriteria karenaproses equating yang dilakukan dari paketsoal yang sulit ke paket soal yang mudah.Sebaliknya, paket soal dengan tingkatkesulitan tinggi akan berada di atas nilaiyang menjadi kriteria. Artinya, proses

equating yang dilakukakan dari paket soalyang mudah ke paket soal sukar.

Ditinjau dari daya beda, hasil pe-nyetaraan tes paket 03 dan paket 04 dengananchor item 30% terungkap bahwa keduapaket tersebut memiliki daya beda yangberbeda. Artinya, untuk dapat membedakankemampuan tinggi dan rendah untukkedua paket secara bersamaan sebaiknyamenggunakan koefisien penyetaraandengan formula (a*X4=a_X3/( 0.800241)).Dengan formula tersebut, diperoleh grafi kpenyetaraan daya pembeda butir untukpaket 03 dan paket 04 tidak berhimpit.Posisi garis paket 03 lebih mengarah kearah positif atau mendekati angka noldibandingkan dengan paket 04. Hal inimenunjukkan bahwa paket 03 sangat baikdalam hal membedakan antara peserta teskemampuan tinggi dengan kemampuanrendah dibandingkan dengan paket 04.

Hasil analisis penyetaraan soal paket05 dan paket 06 dengan anchor item 40%dan metode Haebara pada EquateIRTterungkap bahwa kedua paket tersebutmemiliki tingkat kesulitan yang berbeda.Paket 06 lebih sulit dibandingkan denganpaket 05. Oleh karena itu, persamaan yangterbaik dengan tidak merugikan pesertadidik adalah persamaan dari paket sulit kepaket mudah dengan persamaanbX5= ((b_X6-0.03269)/0.72467). Dengan formulatersebut, diperoleh grafik penyetaraantingkat kesulitan paket 05 dan paket 06seperti disajikan Gambar 3.

Informasi yang disajikan Gambar3 menunjukan bahwa paket soal dengantingkat kesulitan tinggi akan berada di atasnilai kriteria karena proses equating yangdilakukan dari paket soal yang mudah kepaket soal yang sulit. Sebaliknya, paketsoal dengan tingkat kesulitan mudah akanberada di bawah nilai yang menjadi kriteria.Artinya, proses equating dilakukan daripaket soal yang sulit ke paket mudah.

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 9: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

215

Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Gambar 2. Grafi k Tingkat Kesulitan Paket 03 dan Paket 04 Anchor Item 30%

4,03,83,63,43,23,02,82,62,42,22,01,81,61,41,21,00,80,60,40,2

0-0,2-0,4-0,6-0,8-1,0-1,2-1,4-1,6-1,8-2,0-2,2-2,4-2,6-2,8-3,0-3,2-3,4-3,6-3,8-4,0-4,2-4,4-4,6-4,8-5,0

Paket 03Paket 04

(b)

Gambar 3. Grafi k Tingkat Kesulitan Paket 05 dan Paket 06 Anchor Item 40%

Penyetaraan Tes (Achor 40%)2,42,2

21,81,61,41,2

10,80,60,40,2

0-0,2-0,4-0,6-0,8

-1-1,2-1,4-1,6-1,8-2,0-2,2-2,4-2,6-2,8

-3

Paket 05

(b)

Paket 06

Page 10: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

216

Hasil penyetaraan paket 05 dan paket06 dengan anchor item 40% dan metodeHaebara pada EquateIRT terungkapbahwa daya beda pada paket 05 mampumembedakan kemampuan peserta yangtinggi dengan kemampuan peserta yangrendah. Paket 06 mampu membedakankemampuan peserta yang tinggi dengankemampuan peserta yang rendah. Keduapaket tersebut memiliki indeks daya bedayang berbeda. Oleh karena itu, dapatmeng-gunakan koefisien penyetaraandengan formula (a*X6=a_X5/( 0.72467)).Dengan formula tersebut, diperoleh grafi kpenyetaraan daya pembeda butir untukpaket 05 dan paket 06 yang tidak berhimpit.Posisi garis paket 05 lebih mengarah kearah positif atau mendekati angka noldibandingkan dengan paket 06. Hal inimenunjukkan bahwa paket 05 sangat baikdalam hal membedakan antara peserta teskemampuan tinggi dengan kemampuanrendah dibandingkan dengan paket 06.

Kualitas penyetaraan dilihat darijumlah butir anchor item yang digunakandalam penyetaraan menunjukkan bahwasemakin banyak jumlah anchor itemyang digunakan pada proses penyetaraanmempengaruhi nilai koefi sien penyetaraan.Secara teoretis, semakin banyak jumlahanchor item yang digunakan nilai koefi sienα dan β semakin mendekati 1 dan 0.Demikian juga dengan nilai standar errordari koefi sien penyetaraan, semakin banyakjumlah anchor item yang digunakannilai standar error koefi sien penyetaraansemakin kecil. Hal ini berarti semakinbanyak jumlah anchor item, kualitaspenyetaraan semakin akurat. Ringkasanhasil penyetaraan untuk masing-masinganchor item ditinjau dari koefi sien α dan βdisajikan pada Tabel 1.

Tabel 1 menunjukkan bahwa darihasil analisis data terdapat perbedaan hasilpenyetaraan antara paket soal dengan 10

butir anchor (25% dari 40 butir soal) danpaket soal dengan 12 butir anchor (30% dari40 butir soal). Paket soal dengan 12 butiranchor menghasilkan koefi sien penyetaraanyang lebih akurat dibandingkan paket soaldengan 10 butir anchor karena koefi sienα pada paket soal dengan 12 butir anchorlebih mendekati 1 dan koefi sien β lebihmendekati 0.

Tabel 1Hasil Analisis Perbedaan Koefi sien Penye-taraan Berdasarkan Perbedaan JumlahButir Anchor

Jumlah AnchorKoefi sien

αKoefi sien

β10 anchor (25%) 1,00820 -0,36996

12 anchor (30%) 0,800241 -0,077775

16 anchor (40%) 0,72467 0,03269

Terdapat perbedaan koefisien pe-nyetaraan pada paket soal dengan 10 butiranchor (25% dari 40 butir soal) dan paketsoal dengan 16 butir anchor (40% dari40 butir soal). Paket soal dengan 16 butiranchor menghasilkan koefi sien penyetaraanyang lebih akurat dibandingkan paket soaldengan 10 butir anchor karena koefi sienα pada paket soal dengan 16 butir anchorlebih mendekati 1 dan koefi sien β lebihmendekati 0.

Terdapat perbedaan koefi sien penye-taraan pada paket soal dengan 12 butiranchor (30% dari 40 butir soal) dan paketsoal dengan 16 butir anchor (40% dari40 butir soal). Paket soal dengan 16 butiranchor menghasilkan koefi sien penyetaraanyang lebih akurat dibandingkan paket soaldengan 12 butir anchor karena koefi sien αpada paket soal dengan 16 butir anchor lebihmendekati 1 dan koefi sien β lebih mendekati0. Ditinjau dari standar error yang dihasil-kan dari penyetaraan untuk masing-masingpaket soal disajikan pada Tabel 2.

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 11: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

217

Tabel 2Hasil Analisis Standar Error KoefisienPenyetaraan Berdasarkan PerbedaanJumlah Butir Anchor

Jumlah AnchorStandar Error

Koefi sien α Koefi sien β10 anchor (25%) 0,21236 0,18060

12 anchor (30%) 0,16461 0,15494

16 anchor (40%) 0,11994 0,11748

Berdasarkan Tabel 2, terdapat per-bedaan standar error hasil penyetaraanantara paket soal dengan 10 butir anchor(25% dari 40 butir soal) dan paket soaldengan 12 butir anchor (30% dari 40 butirsoal). Paket soal dengan 12 butir anchormenghasilkan standar error yang lebih kecildibandingkan paket soal dengan 10 butiranchor. Hal ini berarti hasil penyetaraantes pada paket soal dengan 12 butir anchorlebih akurat dibandingkan dengan paketsoal dengan 10 butir anchor.

Terdapat perbedaan standar error hasilpenyetaraan antara paket soal dengan 10butir anchor (25% dari 40 butir soal) danpaket soal dengan 16 butir anchor (40%dari 40 butir soal). Paket soal dengan 16butir anchor menghasilkan standar erroryang lebih kecil dibandingkan paket soaldengan 10 butir anchor. Hal ini berarti hasilpenyetaraan tes pada paket soal dengan 16butir anchor lebih akurat dibandingkandengan paket soal dengan 10 butir anchor.

Terdapat pula perbedaan standar errorhasil penyetaraan antara paket soal dengan12 butir anchor (30 % dari 40 butir soal)dan paket soal dengan 16 butir anchor (40%dari 40 butir soal). Paket soal dengan 16butir anchor menghasilkan standar erroryang lebih kecil dibandingkan paket soaldengan 12 butir anchor. Hal ini berarti hasilpenyetaraan tes pada paket soal dengan 16butir anchor lebih akurat dibandingkandengan paket soal dengan 12 butir anchor.

Hal ini sejalan dengan penelitianyang dilakukan sebelumnya pada datadikotomus (Hanson & Beguin, 2002)dan data politomus (Swediati, 1997).Hasil ini sesuai pula dengan yang telahdiperkirakan atau dibahas pada kajianpustaka, seperti yang dikemukakan olehKolen & Brennan (2014) bahwa anchoritem yang besar akan mencerminkan tes.Hasil ini juga sejalan dengan Battauz (2015,p. 101) yang menyatakan bahwa jumlahbutir anchor memiliki pengaruh pentingterhadap keragaman koefi sien penyetaraanapabila ukuran sampel kecil terutamapada panjang tes. Liu, Sinharay, Holland,Curley, & Feigenbaum (2011) menyatakanbahwa hasil penyetaraan menunjukkananchor kecil tidak selalu menghasilkanfungsi akurasi kesetaraan yang lebih baikdibandingkan anchor sedang. Anchorsedang yang dihasilkan menunjukkan samabaik atau bahkan lebih baik dari anchorkecil.

SIMPULANBerdasarkan hasil penelitian dan

pembahasan di atas, dapat disimpulkanhal-hal sebagai berikut. Pertama, terdapatperbedaan hasil penyetaraan tes antarapaket soal dengan 10 butir anchor (25%dari 40 butir soal) dan paket soal dengan 12butir anchor (30% dari 40 butir soal). Paketsoal dengan 12 butir anchor menghasilkanpenyetaraan yang lebih akurat. Kedua,terdapat perbedaan hasil penyetaraan tesantara paket soal dengan 10 butir anchor(25% dari 40 butir soal) dan paket soaldengan 16 butir anchor (40% dari 40 butirsoal). Paket soal dengan 16 butir anchormenghasilkan penyetaraan yang lebihakurat. Ketiga, terdapat perbedaan hasilpenyetaraan tes antara paket soal dengan 12butir anchor (35% dari 40 butir soal) danpaket soal dengan 16 butir anchor (40%dari 40 butir soal). Paket soal dengan 16

Syahrul, Mansyur, dan Rosdiyanah: Pengaruh Jumlah Butir Anchor...

Page 12: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

218

butir anchor menghasilkan penyetaraanyang lebih akurat. Keempat, paket soaldengan jumlah anchor yang paling besarmenghasilkan penyetaraan tes yang lebihakurat. Berdasarkan simpulan tersebut,sebaiknya dilakukan penyetaraan tesberdasarkan jumlah butir anchor sebesar40% agar kualitas penyetaraan tes yangdiperoleh lebih akurat.

DAFTAR PUSTAKABattauz, M. (2015). Factors affecting the

variability of IRT equating coeffi cients.Statistica Neerlandica, 69(2), 85-101.

Cook, L. L., & Eignor D. R. (1991). IRTequating methods. Educational testingservice. Educational Measurement:Issues and Practice, 10, 37-45.

Croker, L., & Algina, J. (2006). Introductionto classical and modern test theory.California: Wadsworth Pub Co.

Dorans, N. J., Moses, T. P., & Eignor, D. R.(2010). Principles and practices of testscore equating. ETS Research ReportSeries, 2010(2), i-41.

Hambleton, R. K., Swaminathan, H., &Rogers H. J. (1991). Fundamentals ofitem response theory. Newbury Park:Sage Publications Inc.

Hanson, B. A., & Beguin, A. A. (2002).Obtaining a common scale for IRTitem parameters using separate versusconcurrent estimation in the commonitem non equivalent groups equatingdesain. Applied PsychologicalMeasurement, 26, 3-34.

Hayati, N., & Mardapi, D. (2014). Pengem-bangan butir soal matematika SD diKabupaten Lombok Timur sebagaiupaya dalam pengadaan bank soal.Jurnal Kependidikan, 44(2), 26-38.

Kolen, M. J., & Brennan, R. L. (2014).Test equating, scaling, and linking:Methods and practices (3rd ed.). NewYork: Springer Verlag Inc.

Liu, J., Sinharay, S., Holland, P. W., Curley,E., & Feigenbaum, M. (2011). Test scoreequating using a Mini-Version anchorand a midi anchor: A case study usingSAT® data. Journal of EducationalMeasurement, 48(4), 361-379.

Lord, F. M. (1980). Applications ofitem response theory to practicaltesting problems. Hillsdale, NewJersey: Lawrence Erlbaum AssociatesPublishers.

Mansyur, Soeratno, & Harun, R. (2015).Asesmen pembelajaran di sekolah:Panduan bagi guru dan calon guru.Yogyakarta: Pustaka Pelajar.

Miyatun, E., & Mardapi, D. (2000).Komparasi metode penyetaraan tesmenurut teori respon butir. JurnalPenelitian dan Evaluasi, 2(3), 1-18.Diunduh dari http://id.portalgaruda.org/?ref=browse&mod=viewarticle&article=168292.

Rosana, D., & Sukardiyono. (2015).Analisis butir dan identifi kasi ketidak-wajaran skor ujian akhir sekolahuntuk standarisasi penilaian. JurnalKependidikan, 44(2), 92-102.

Sukirno, D. S. (2007). Penyetaraan tesUAN, mengapa dan bagaimana. JurnalCakrawala Pendidikan, 26(3), 305-321.

Swediati, N. (1997). Equating testsunder the generalized partial creditmodel (Doctoral Dissertation).Diunduh dari http://scholarworks.umass.edu/dissertations/. (Order No.AAI9809405).

Syahrul. (2014). Penerapan asesmenalteratif bagi peningkatan kualitasproses dan hasil belajar matematikasiswa SMK Negeri 2 Makassar (Lapor-an penelitian). Makassar: LPPMUNM.

Taruno, D. L. B. (2014). Model ujikompetensi keahlian instalasi listrik.Jurnal Kependidikan,44(2), 103-116.

JURNAL KEPENDIDIKAN, Volume 46, Nomor 2, November 2016, Halaman 207-218

Page 13: PENGARUH JUMLAH BUTIR ANCHOR TERHADAPHASIL PENYETARAAN TES ...

INDEKS SUB-JEK

Symbols

AAnchor item, 207, 210, 211, 213-217anchor test, 210

B

Ccommon-item nonequivalent group, 207, 210

D

EequateIRT, 207, 212-214, 216

F

G

HHASIL PENYETARAAN TES, 207, 211, 217

IItem Charascteristic Curve (ICC), 208Item Response eory, 207, 210

Jjumlah butir anchor, 207, 216-218

K

L

M

metode Haebara, 213, 214, 216

N

O

P

Q

R

S

TTEORI RESPON BUTIR, 207, 208, 210-212

U

V

W

X

Y

Z