Penyetaraan (Equating) Ujian Akhir Sekolah Berstandar ...

455

Arniati Prasedyawati Herkusumo, Penyetaraan (Equating) Ujian Akhir Sekolah Berstandar Nasional (UASBN) Dengan Teori tTes Klasik

Penyetaraan (Equating) Ujian Akhir Sekolah Berstandar Nasional(UASBN) Dengan Teori Tes Klasik

Arniati Prasedyawati HerkusumoPeneliti pada Pusat Penilaian Pendidikan

Abstrak: Sejak diberlakukannya Ujian Akhir Sekolah Berstandar Nasional (UASBN) pada tahun pelajaran2007/2008, propinsi diberi kewenangan untuk menyusun soal-soal ujian berdasarkan kisi-kisi yang samayang dikeluarkan BSNP. Para ahli pengukuran menyatakan bahwa tidak pernah ditemukan dua paket tesdengan butir soal yang berbeda walaupun berdasarkan kisi-kisi yang sama mempunyai tingkat kesukaranyang sama. Oleh karena itu dalam pelaksanaan evaluasi setingkat Ujian Nasional yang menggunakanbeberapa paket tes yang berbeda dan mengukur hal yang sama, perlu dilakukan penyetaraan (equating).Dengan dilakukannya penyetaraan/equating skor atas paket-paket yang digunakan dalam UASBN, makaestimasi kesalahan pengukuran yang sekecil apapun dapat diketahui, dan skor yang diperoleh dapatdibandingkan sehingga peserta tes tidak merasa dirugikan atau diuntungkan karena kebetulan mendapatpaket tes yang lebih mudah atau yang lebih sukar. Tujuan Penelitian adalah menentukan konversi nilaimata pelajaran yang diujikan secara nasional antarprovinsi, antarpaket pada jenjang pendidikan SekolahDasar, dan mengetahui kemampuan sebenarnya dari peserta UASBN berdasarkan konversi skor yangtelah disetarakan. Pada penelitian ini, teknik equating yang digunakan adalah equipercentile equatingdengan menggunakan software Common Item Program for Equating (CIPE) versi 2.0.Kata kunci: UASBN, penyetaraan tes, soal anchor, teori tes klasik, teori respon butir, dan skor konversiAbstract:Since the enactment of the National Standard School Final Examination (UASBN) in schoolyear 2007/2008, the province is authorized to construct exam questions based on the same lattice issuedBSNP. No tests ever found two packages with different grain problem, although based on the same gridhave the same difficulty level. Therefore, the evaluation of the National Exam level using several differenttest packets and measuring the same thing, need to be equated. The effect of equating scores on thepackages used in this UN estimates that the slightest error of measurement can be known, and thescores obtained can be compared so that the test participants are not disadvantaged or advantagedbecause of getting an easier or more difficult test package accidentally. The purpose of this Research isto 1) determine the conversion of the value of the subjects to be tested nationally among province,among packages at UASBN.; 2) know the actual ability of the participants UASBN based on the conversionof the values that have been synchronised. In this research, the technique used is equipercentile equatingwith the use of the software Program for Common Item Equating (CIPE) version 2.0Key words: UASBN, test equating, anchor item, classical test theory, item response theory, and conversionscore

PendahuluanUjian Akhir Sekolah Berstandar Nasional (UASBN)diselenggarakan dalam rangka memenuhi amanatUndang-Undang Nomor 20 tahun 2003 tentangSistem Pendidikan Nasional. Tujuan dilaksanakan-nya UASBN antara lain untuk menilai pencapaiankompetensi lulusan secara nasional (pada matapelajaran Bahasa Indonesia, Matematika, dan IlmuPengetahuan Alam); keterbandingan antar-sekolah, antardaerah, dan antartahun pada mata

pelajaran yang diujikan. Hasil UASBN digunakansebagai salah satu pertimbangan untuk pemetaanmutu satuan pendidikan, dasar seleksi masukjenjang pendidikan berikutnya, dan penentuankelulusan peserta didik dari satuan pendidikan.Nilai-nilai tersebut dapat dibandingkan jika semuapeserta tes di setiap provinsi mengerjakan soal-soal (perangkat tes) yang sama. Tetapi dalampelaksanaannya, pada UASBN diadministrasikanlebih dari satu perangkat tes di setiap provinsi,

456

Jurnal Pendidikan dan Kebudayaan, Vol. 17, Nomor 4, Juli 2011

dan menggunakan perangkat-perangkat tesberbeda antarprovinsi. Dengan pengadministrasi-an lebih dari satu perangkat tes, perbedaan nilaiantarpeserta tes yang mendapat tes berbedatidak dapat langsung disimpulkan adanyaperbedaan kemampuan antarmereka, karenatingkat kesukaran perangkat yang digunakanakan mempengaruhi perbedaan tersebut.

Untuk menanggulangi masalah tersebut,para ahli educational measurement mengembang-kan metode statistik yang disebut equating(penyetaraan). Metode ini adalah metode ilmiahyang digunakan untuk menyetarakan nilai dariskor mentah satu perangkat ke skor mentahperangkat lainnya, yang pada akhirnya akandiperoleh sebuah tabel konversi nilai. MenurutSuryabrata (1987) bahwa dalam pelaksanaanevaluasi yang menggunakan beberapa perangkattes yang berbeda dan mengukur hal yang sama,perlu dilakukan penyetaraan dari perangkat-perangkat tes yang digunakan tersebut, karenadengan penyetaraan tersebut dapat dijaminkeadilan bagi peserta tes.

Hambleton & Swaminathan (1985) mengata-kan bahwa tidak pernah ada soal dari duaperangkat tes dengan butir soal yang berbedawalaupun berdasarkan kisi-kisi yang samamempunyai tingkat kesukaran yang sama.Penyetaraan skor dapat dijadikan sebagai teknikpenyamaan skor yang mampu membedakanpeserta didik yang pandai dan peserta didik yangkurang pandai. Penyetaraan skor dimungkinkan-nya penggunaan perangkat tes yang berbedaterhadap kelompok yang berbeda, sesuai dengantingkat kemampuannya, sehingga skor yangdiperoleh dapat dibandingkan dan peserta testidak merasa dirugikan atau diuntungkan karenakebetulan mendapat perangkat tes yang lebihmudah atau yang lebih sukar. Dengan demikian,menjadi suatu keharusan bagi para pengembangtes atau lembaga pengembang tes untukmelakukan penyetaraan terhadap perangkat tesyang digunakan.

Tujuan utama dilakukannya equating adalahmenegakkan keadilan bagi peserta tes maupunpengguna hasil tes. Asumsi bahwa suatu tesparalel dari segi materi (berasal dari kisi-kisi yangsama) diyakini tidak benar, oleh karena itu perlusuatu proses yang menyetarakan skor perangkat

tes paralel dengan mengeliminasi faktorperbedaan tingkat kesukaran antarperangkattersebut. Secara proses, equating adalah prosedurpemberian skor peserta tes sesuai kemampuan-nya dengan meniadakan efek perbedaan tingkatkesukaran antarperangkat tes. Hal ini sesuaidengan tuntutan keadilan, jangan sampai pesertadidik mendapat nilai jelek karena mengerjakanperangkat tes sukar ataupun peserta didiknilainya baik karena mengerjakan tes yang mudah.Pengguna hasil tes juga menuntut validitas hasil,jangan sampai seseorang mendapatkan hasiltesnya baik hanya karena mengerjakan tes yanglebih mudah padahal kemampuannya rendah

Secara psikometris, equating merupakansuatu proses yang bertujuan untuk memperolehskor konversi yang dapat memperbandingkan hasilbeberapa perangkat tes yang paralel. Petersen(1989) mendefinisikan equating sebagai prosedurempirik yang dilakukan untuk menghasilkanhubungan antara skor mentah dua perangkat tesyang paralel, yaitu A dan B, sehingga skorperangkat tes A dapat diartikan dalam sudutpandang skor perangkat tes B, sedangkan Angoff(1984) mendefinisikan equating sebagai prosesuntuk mengonversi unit di satu perangkat tesmenjadi unit di perangkat tes lain yang paralel.

Proses equating adalah hal yang mutlak harusdilakukan dalam menangani pengolahan hasilujian nasional agar diperoleh pemetaan mutupendidikan yang akurat dan valid, tanpa distorsiperbedaan tingkat kesulitan walaupun mendapatperangkat tes yang berbeda.

Permasalahan penyetaraan (equating) tesdalam UASBN di Indonesia merupakan hal yangperlu dilakukan mengingat mutu pendidikan diwilayah Indonesia yang belum merata, dankeadaan geografis wilayah Indonesia sebagainegara kepulauan yang cukup luas. Dalampelaksanaan evaluasi setingkat Ujian Nasionalyang menggunakan beberapa perangkat tes yangberbeda dan mengukur hal yang sama,penyetaraan (equating) skorperlu dilakukan.Dengan dilakukannya penyetaraan skor atasperangkat-perangkat yang digunakan dalamUASBN, maka estimasi kesalahan pengukuranyang sekecil apapun dapat diketahui, dan skoryang diperoleh peserta didi antarpropinsi dapatdiperbandingkan sehingga peserta tes tidak

457


merasa dirugikan atau diuntungkan karena ke-betulan mendapat paket tes yang lebih mudahatau yang lebih sukar.

Penelitian ini dimaksudkan untuk menentukankonversi nilai mata pelajaran yang diujikan secaranasional antarprovinsi, antarpaket pada jenjangpendidikan Sekolah Dasar dan mengetahuikemampuan sebenarnya dari peserta UASBNberdasarkan konversi nilai yang telah disetarakan.

Kajian PustakaKarakteristik TesTes yang berkualitas baik memiliki karakteristikbutir soal dan perangkat tes yang baik pula. Karak-teristik soal dapat dilihat dari parameter tingkatkesukaran, daya pembeda, reliabilitas, dankesalahan pengukuran.

Tingkat kesukaran satu butir soal didefinisi-kan sebagai proporsi peserta tes yang menjawabbenar soal tersebut (teori tes klasik). Angka yangmenunjukkan mudah, sedang, atau sukar suatubutir soal disebut indeks tingkat kesukaran dengannilai antara 0 dan 1. Dalam suatu perangkat tes,tingkat kesukaran didapat dengan cara meng-hitung rerata seluruh indeks tingkat kesukaran.Daya Pembeda adalah kemampuan satu butir soaluntuk membedakan antara peserta tes yangpandai dengan peserta tes yang kurang pandai.Untuk mengetahui daya pembeda butir soalbiasanya menggunakan indeks korelasi antaraskor butir dengan skor totalnya, seperti teknikpoint biserial dan teknik biserial. Daya pembedasuatu perangkat tes adalah rerata dari daya bedabutir-butir soal yang membentuk tes tersebut.Reliabilitas adalah tingkat kepercayaan dari suatualat ukur, artinya seberapa jauh pengukurandilakukan berulang-ulang terhadap sekelompoksubyek yang sama memberikan hasil yang samapula. Ukuran reliabilitas yang baik adalah antara0,60 sampai dengan 0,85 (Grondlund, 1982).Kesalahan pengukuran (standart error of measure-ment) biasanya disebabkan oleh kesalahan dalampengambilan sampel. Semakin kecil angkakesalahan semakin baik, sehingga skor yangdiperoleh dari perangkat tersebut semakinmendekati skor yang sebenarnya.

Definisi Penyetaraan (Equating)Weiss (1983) mendefinisikan penyetaraan skor

sebagai suatu prosedur empiris karena data skordiperoleh dari hasil pekerjaan peserta didik yangselanjutnya diperlukan untuk mentranformasi skor.Menurut Hambleton (1991) penyetaraan skoradalah membandingkan skor yang diperoleh dariperangkat tes yang satu (X) dan perangkat teslainnya (Y) yang di lakukan melaui prosespenyetaraan skor pada kedua perangkat testersebut. Crocker dan Algina (1986), menyatakanbahwa dua skor hasi l pengukuran yangmenggunakan instrumen X dan instrumen Y dapatdisetarakan skornya jika kedua instrumenmengukur kemampuan atau trait yang sama.Menurut Kolen (2004) penyetaraan skor dapatdilakukan jika kelompok peserta tes setara, karenakesetaraan yang ekstrim akan berpengaruh dalamperhitungan.

Berdasarkan pengertian di atas dapatdisimpulkan bahwa penyetaraan/equatingmerupakan prosedur secara empiris dalam rangkamenyetarakan skor dari perangkat tes yang satuke perangkat tes lainnya sehingga dapatmelakukan perbandingan atau konversi secaralangsung hasil-hasil individu yang mengikutiperangkat tes yang berbeda tersebut.

Tipe-tipe Equating/Penyetaraan.Ada beberapa teknik dan metodologi yang dapatdigunakan dalam penyetaraan tes untukmenetapkan transformasi. Secara umum teknikdan metodologi ini dapat dibagi atas dua jenis,yaitu yang metode teori tes klasik (classical testtheory) dan metode teori modern (item responsetheory).

Menurut Hambleton, Swaminathan, & Roger(1991), pada teori tes klasik dikenal dua metode,yaitu penyetaraan linear (linear equating) dan pe-nyetaraan ekuipersentil (equipercentile equating).Penyetaraan linear akan menghubungkan skorkonversi dengan skor asalnya melalui suatu fungsilinear. Prinsip dasar metode ini adalah distribusiskor pada dua perangkat tes sama dalam halrerata dan simpangan baku. Angoff (1971)menyatakan bahwa definisi untuk penyetaraanlinear adalah skor dua perangkat tes menjadiekuivalen jika ada hubungan yang setara denganstandar skor deviasinya. Penyetaraan skor yangmenggunakan metode linear memungkinkanadanya tingkat kesulitan relatif bervariasi pada

458


skor di antara beberapa perangkat tes tersebut.Pada penyetaraan linear diperlukan kesamaandistribusi probabilitas antara skor X dan skor Y.Jika skor X dan skor Y memilki rerata dansimpangan baku yang berbeda, maka distribusiprobabilitas yang sama dari kedua skor tersebutdapat digunakan untuk mentransformasi nilai darisatu distribusi probabilitas ke distribusiprobabilitas berikutnya.

Tipe yang kedua metode penyetaraanekuipersentil (equipercentile equating). Penyetara-an ekuipersentil adalah metode penyetaraan duapaket tes, misal X dan Y, dengan mengasumsikanbahwa kedua paket tersebut mengukur variabellaten yang sama dan nilai persentil rank distribusiskor kedua paket tes hampir sama. Apabiladistribusi skor kedua paket tes persis sama, makahasil equating skor di paket X akan persis samadengan skala skor paket tes Y. Dengan demikianmetode penyetaraan ekuipersentil mengkonversiskor berdasarkan jenjang persentil yang sama.Gambar 2.1 berikut adalah ilustrasi prosedurpenyetaraan dengan metode ekuipersentil.

Livingstone (1984) menjelaskan prosedurpenyetaraan ekuipersentil sebagai berikut:pertama membuat tabulasi ranking persentiluntuk distribusi skor pada masing-masing paketyang disetarakan. Kedua, transformasikan skordi paket tes yang baru terhadap paket tes acuansedemikian rupa sehingga skor yang berpasanganmemilki nilai ranking persentil yang sama.

Prosedur estimasi frekuensi penyetaraanekuipersentil dikerjakan dengan langsungmenyetarakan dua perangkat tes yaitu paket Xdan paket Y. Namun demikian, paket X dan paketY dapat juga disetarakan langsung dengan tesyang ketiga (tes V). Prosedur ini lebih baikdigunakan dalam penyetaraan ekuipersentil.

Satu masalah yang sering dihadapi dalamproses penyetaraan/equating dengan metodeekuipersentil adalah ketidakteraturan distribusiskor, terutama pada kasus sampel yang kecil.Ketidakteraturan ini menimbulkan masalah karenanilai ranking persentil menjadi tidak stabil saatdigeneralisasikan ke populasi. Untuk mengatasimasalah ini perlu dilakukan proses smoothingdistribusi skor, terutama untuk jumlah sampel yangkecil. Smoothing adalah proses pemulusan ataupenghalusan ketidakteraturan distribusi skordengan cara mengganti distribusi tersebutdengan distribusi lain yang memiliki bentuk, lokasi,penyebaran, skewness, dan kurtosis yang sama,tetapi meminimalisir ketidakteraturan. Gambar 2menunjukkan ilustrasi proses smoothing distribusiskor.

Penerapan teknik pemulusan pada distribusiskor sampel yang mengandung kekeliruan acakdan memiliki bentuk ketidakberaturan (melonjak-lonjak), akan menghasilkan bentuk distribusi skoryang halus. Dengan demikian hasil penyetaraanyang lebih akurat dapat diperoleh dengan carasmoothing (pemulusan).

Gambar 1. Percentiles of Raw Score

459


Metode penyetaraan dengan item responsetheory (IRT) atau teori respon butir, didasarkanasumsi bahwa ada sebuah fungsi matematikayang menggambarkan hubungan antara kemam-puan peserta tes dan kemungkinan peserta tesmenjawab soal dengan benar. Ada tiga modelpenyetaraan dengan item response theory, yaituRasch Model (satu parameter logistik), model duaparameter logistik, dan model tiga parameterlogist ik (Hambleton, 1991). Model Raschmengasumsikan tingkat kesukaran butir soalsebagai satu-satunya karakteristik yang mempe-ngaruhi kemampuan peserta tes. Pada model duaparameter, kemampuan peserta tes dipengaruhioleh tingkat kesukaran item dan daya pembedasoal tanpa faktor menebak (guessing). Sedangkanpada model tiga parameter, kemampuan pesertates dipengaruhi oleh tingkat kesukaran, dayapembeda, dan faktor menebak (guessing).Prosedur equipercentile sama baiknya denganpenyetaraan dengan prosedur IRT.

Dari perspektif yang berbeda, penyetaraantes dapat dibedakan atas dua tipe, yaitupenyetaraan vertikal dan penyetaraan horizontal.Penyetaraan vertikal didefinisikan sebagai sebuahmetode pengukuran nilai pada dua tes yangberbeda tingkatan kelas. Contoh tes Matematikauntuk kelas 3 dan kelas 5, pada skala yang samasehingga nilai Matematika para peserta didik daridua tingkat yang berbeda tersebut dapatdibandingkan. Kolen (1984) menyatakan bahwavertikal equating memuat perbandingan perkem-bangan kemampuan peserta didik pada kedua

level pada saat tes dan perkembangan kemampu-an dari waktu ke waktu dapat pula dibandingkan.Dengan kata lain pada penyetaraan vertikaldimaksudkan untuk menentukan padanan skor-skor yang diperoleh dari dua kelompok pesertates dalam tingkat atau jenjang pendidikan yangberbeda, tetapi dikenakan perangkat tes yangsama.

Penyetaraan horizontal didefinisikan sebagaimetode skor penempatan peserta tes pada duates yang sama di level yang sama, mengukur halyang sama, dan untuk populasi yang samasehingga skor peserta tes dapat dibandingkan.Penyetaraan horizontal dimaksudkan untukmenyetarakan dua skor yang masing-masingdiperoleh dari dua perangkat tes yang berbeda,tetapi mengukur hal yang sama. Penyetaraanhorizontal lebih jelas karena tujuan daripenyetaraan adalah membandingkan dua ataulebih kelompok peserta tes yang memilikikemampuan yang sama menggunakan dua ataulebih perangkat tes yang berbeda mengukur halyang sama dan tingkat kesukaran yang sama.

Desain Penyetaraan/equating TesMenurut Peterson (1989), penyetaraan tidaksesederhana seperti regresi, karena metodepenyetaraan adalah sebuah prosedur empirisyang melibatkan sebuah desain untuk pengum-pulan data dan sebuah aturan untuk menetapkantransformasi. Beberapa desain dapat digunakanuntuk memperoleh data pada proses penyetara-an/equating. Ada t iga desain yang sering

Gambar 2. Smoothing (penghalusan) distribusi skor

Sebelum smoothing Setelah smoothing

460


digunakan oleh lembaga testing, yaitu single groupdesign, common item non equivalent, dan randomgroup design.

Pada single group design. satu sampel yangsama diuji dua kali dengan paket tes yangberbeda. Misal paket tes tersebut paket X danpaket Y. Paket X diadministrasikan pertama padasemua peserta tes, kemudian disusul denganpaket Y. Cara ini mengakibatkan paket Y lebihsukar soalnya dari paket X karena diujikanbelakangan (fatigue effect).

Untuk mengurangi fatigue effect dapatdigunakan Counterbalancing, yaitu dengan carasampel dibagi atas subgrup 1 dan subgrup 2. PaketX diadministrasikan pada peserta pertama, diikutipaket Y. Peserta kedua sebaliknya, mendapatPaket Y, kemudian Paket X. Walaupun Counter-balancing dapat digunakan untuk mengurangifatigue effect, Single group design jarangdigunakan. Salah satu kendala penggunaan Singlegroup design dikarenakan desain ini mengharus-kan pengadministrasian semua paket tes padasemua peserta, terutama jika ada lebih dari satuperangkat.

Desain yang kedua adalah common item nonequivalent. Desain ini lebih tepat digunakan untukujian nasional, karena ada soal-soal yang samaantarpaket (forms) pada UN sebagai anchor itemdan paket-paket tes tersebut diadministrasikanpada kelompokpeserta yang berbeda. Untukmemperoleh hasil equating yang memuaskan perlujumlah common item yang proportional dengancontent pada total tes. Crocker dan Algina (1986)mengatakan bahwa jumlah minimal anchor itemyang baik adalah 20% dari seluruh item.

Desain yang ketiga adalah random groupdesign. Paket-paket tes pada desain ini diadminis-trasikan secara random/acak kepada semuapeserta tes dengan pembagian paket tes secaraspiral. Misal ada dua paket yang diujikan yaitupaket X dan paket Y yang dibagikan secarabergantian. Peserta tes pertama akan mendapatpaket X, peserta kedua mendapat paket Y, pesertaketiga mendapat paket X, dan seterusnya.Dengan cara ini menjamin perangkat tes akanterdistribusi pada dua grup peserta tes dengankemampuan yang relatif sama. Salah satukelebihan dari desain ini adalah setiap pesertates hanya menempuh satu paket tes sehingga

faktor kelelahan (fatigue effect) peserta tes dapatdihilangkan. Selain itu banyak paket yangdiadministrasikan/diujikan dalam waktu yangbersamaan.

Dalam penelian ini desain penyetaran tesyang digunakan adalah desain kedua yaitucommon item non equivalent. Desain ini lebih tepatdigunakan untuk ujian nasional, karena adanyasoal-soal yang sama antarpaket (forms) pada UNsebagai anchor item

Metodologi PenelitianUjian Akhir Sekolah Berstandar Nasional merupa-kan salah satu penilaian berskala nasional yangmenguji populasi. Populasi dalam penelitian iniadalah seluruh peserta UASBN 2009/2010 diseluruh Indonesia. Sampel diambil dari databaseUASBN 2009/2010. Jumlah sampel UASBN adalah5.000 siswa dan dipilih secara acak dari seluruhsekolah peserta UASBN di masing-masing provinsidi Indonesia. Sehingga jumlah keseluruhansampel adalah 33 provinsi x 5000 siswa (165.000siswa).

Data yang digunakan pada penelitian iniadalah data hasil Ujian Akhir Sekolah BerstandarNasional (UASBN) tahun 2009/2010 untuk SekolahDasar/Madrasah Ibtidaiyah (SD/MI). Adanyaketerbatasan jumlah data yang mampu dianalisisoleh software yang digunakan dalam penyetara-an/equating ini, maka secara acak dari setiapdatabase respon peserta didik setiap matapelajaran setiap provinsi dipilih maksimum 5.000peserta didik. Adapun mata pelajaran yangdigunakan adalah seluruh mata pelajaran yangdi-UASBN-kan yaitu Bahasa Indonesia, Matema-tika, dan Ilmu Pengetahuan Alam.

Teknik Analisis yang digunakan adalahanalisis equating berdasarkan teori tes klasik.Skema tes mengikuti pola “Non Equavalent AnchorTest” (NEAT). Karena soal yang diujikan berbentuktes paralel dan peserta tes berasal dari populasiyang beragam, maka untuk dapat menyetarakansatu paket tes dengan paket tes yang lain,digunakan anchor soal, yaitu soal-soal yang samamuncul di beberapa paket tes. Gambaranperbedaan kemampuan peserta didik dilihat dariproporsi peserta didik yang menjawab benarpada soal-soal anchor tersebut. Dengan mengacupada proporsi tersebut, maka perbedaan tingkat

461


kesukaran pada soal yang unik di setiap pakettes dapat disesuaikan.

Pada penelit ian ini, teknik equating yangdigunakan adalah equipercentile equating. Pakettes dari provinsi X yang akan disetarakan denganprovinsi Y, diasumsikan mengukur hal yang samakarena kedua paket tes tersebut berasal dari kisi-kisi yang sama, serta nilai persentil rank distribusiskor kedua paket tes hampir sama. Jika distribusiskor tidak beraturan sehingga nilai rankingpersentil menjadi tidak stabil saat digenerali-sasikan ke populasi, maka dalam analisis inidilakukan smoothing (penghalusan) distribusi skor.Selanjutnya diperoleh hasil transformasi skorpaket tes baru terhadap paket tes acuan. Studiequating ini menggunakan software Common ItemProgram for Equating (CIPE) versi 2.0 yang dibuatoleh Kolen (2004).

Hasil Penelitian dan PembahasanDalam UASBN terdapat tiga mata pelajaran yangdiujikan yaitu Bahasa Indonesia, Matematika, danIPA. Soal UASBN disusun berdasarkan kisi-kisipenulisan soal dari Pusat (Balitbang Diknas).Sebanyak 75% soal ditulis oleh penulis darimasing-masing provinsi dan 25% soal dari Pusatsebagai soal anchor. Dari setiap provinsi dipilihsecara acak 5.000 peserta didik, sehingga jumlahsampel yang dianalisis di setiap provinsi (N) =5.000. Sebagai acuan penyetaraan dipilih datadari Provinsi Jawa Barat. Provinsi ini dipilih karena

memiliki jumlah sampel (peserta didik) yangbanyak, dan analisis karakteristik soal (denganmenggunakan IRT) menunjukkan hasil yang stabil.

Data yang diolah terdiri atas skor perolehanpeserta didik dari total soal yang diujikan, 50 soaluntuk mata pelajaran Bahasa Indonesia, dan 40soal masing-masing untuk mata pelajaranMatematika dan IPA, serta skor perolehan soalanchor dengan jumlah soal masing-masing matapelajaran 10 soal untuk mata pelajaran Matema-tika dan IPA, dan 13 soal untuk mata pelajaranBahasa Indonesia. Hasil analisis univariate untukketiga mata pelajaran tersebut diperoleh meananchor USBN berikut ini.

Tabel 1 menggambarkan mean anchortertinggi untuk Bahasa Indonesia diperolehprovinsi DI Yogyakarta (9.79); mean anchorterendah diperoleh provoinsi Riau (6.36); JawaBarat sebagai provinsi acuan berada diurutan ke-5 (8.86).

Pada mata pelajaran Matematika meananchor tertinggi diperoleh provinsi DI Yogyakarta(7.51); mean anchor terendah diperoleh provoinsiSumatera Selatan (3.02); Jawa Barat sebagaiprovinsi acuan berada diurutan ke-4 (6.77).

Pada mata pelajaran IPA mean anchortertinggi diperoleh provinsi DI Yogyakarta (7.18);mean anchor terendah diperoleh provoinsi MalukuUtara; (5.18)) Jawa Barat sebagai provinsi acuanberada diurutan ke-3 (6.68).

PROVINSI BIN MAT IPA PROVINSI BIN MAT IPA DKI Jakarta 01 9.17 6.28 6.27 Sultra 8.19 5.81 6.04 DKI Jakarta 02 8.61 6.27 6.20 Sulteng 8.29 6.00 6.10 Jabar 01 8.86 6.77 6.68 Sulsel 8.78 6.94 6.37 Jateng 8.87 6.75 6.77 Sultra 8.25 6.19 5.91 DIY 9.79 7.51 7.18 Maluku 8.03 5.91 6.31 Jatim 8.84 6.78 6.73 Bali 9.56 7.24 6.22 Aceh 7.69 5.65 6.27 NTB 7.80 5.38 5.55 Sumut 8.24 6.42 6.23 NTT 7.56 5.31 6.01 Sumbar 8.33 6.64 6.45 Kepri 8.13 5.51 6.08 Riau 6.36 5.74 6.03 Bengkulu 8.18 5.84 6.38 Jambi 8.69 6.33 6.50 Maluku Utara 6.60 4.61 5.18 Sumsel 8.28 3.02 6.21 Babel 8.38 5.64 6.44 Lampung 8.10 5.31 5.89 Gorontalo 7.85 5.86 6.11 Kalbar 7.39 4.62 5.67 Banten 8.33 6.20 6.36 Kalteng 7.73 4.57 5.76 Sulbar 7.75 5.56 5.60 Kalsel 7.89 4.97 5.83 Papua Barat 6.96 4.81 5.38 Kaltim 8.24 5.41 5.90 Papua 7.44 4.69 5.46

Tabel 1 . Mean Anchor UASBN Tahun Pelajaran 2009/2010

462


Hasil equating mata pelajaran BahasaIndonesia.Jumlah soal Bahasa Indonesia UASBN SD tahunpelajaran 2009/2010 terdiri dari 50 soal, dengan13 soal anchor. Seluruh soal (50 item) dianalisisuntuk mendapatkan hasil konversi penyetaraan(equate). Gambar 3 berikut menunjukkan perban-dingan mean awal dengan mean konversi untuksetiap provinsi, dengan Jawa Barat sebagaiprovinsi acuan penyetaraan. DKI Jakarta karenamemakai 2 perangkat tes, maka kedua perangkattersebut juga dianalaisis (DKI 1 dan DKI 2).

diperoleh provinsi Riau (30.42) Sementara itukenaikan mean tertinggi diperoleh provinsi Jambi(sebanyak 6.08 poin) yaitu dari 29.37 menjadi35.45, dan penurunan mean setelah disetarakanterjadi paling tajam di provinsi Sumatera Barat(sebanyak -3.62) yaitu dari 38.42 menjadi 34.8.Tampak pada gambar 3 di atas terdapat 15provinsi menunjukkan kenaikan mean yaituberkisar antara 0.02 sampai dengan 6.08. sisanyamengalami penurunan setelah dikonversi.

Gambar 4 adalah contoh hasil penyetaraanskor peserta didik pada UASBN SD untuk mata

Gambar 3. Perbandingan mean awal dan mean konversi Bahasa Indonesia

Gambar di atas menunjukkan rerata skor darisebelum disetarakan dan rerata skor setelahdisetarakan. Skor mean awal tertinggi adalahprovinsi DIY (37.70), dan terendah adalah MaluluUtara (28.01). Setelah disetarakan mean tertinggitetap diperoleh provinsi DIY (37.66), dan terendah

ujian Bahasa Indonesia di Kepulauan Riau danJambi dibandingkan skor peserta didik sebelumdilakukan penyetaraan (provinsi Jawa Baratsebagai provinsi acuan penyetaraan).

Skor konversi adalah skor peserta didik.Garis lurus naik (yang berada di tengah) pada

463


gambar adalah skor awal Jawa Barat . Garis lurusnaik menunjukkan sebagai provinsi acuan JawaBarat memiliki skor awal dan skor konversi sama.Sementara grafik skor konversi Kepulauan Riau(dalam grafik ditunjukkan sebagai garis di bagianbawah) pada bagian skor awal 0 sampai 1 berimpitdengan grafik garis skor Jawa Barat, namun diatas nilai skor awal 1 grafik garis skor KepulauanRiau berada di bawah grafik garis skor Jawa Barat.Hal ini menunjukkan bahwa setelah dilakukanpenyetaraan skor peserta didik Kepulauan Riauterhadap skor peserta didik Jawa Barat, untukskor awal 0 sampai 1 akan dikonversikan tetapatau sama yaitu 1 (satu), tetapi untuk skor awaldi atas 1 akan dikonversikan lebih rendah.Sehingga dapat disimpulkan berdasarkan hasilUASBN di kedua propinsi tersebut bahwakemampuan peserta didik di Kepulauan Riauberada di bawah kemampuan peserta didik diJawa Barat.

Sementara pada grafik garis skor Jambitampak di atas garis Jawa Barat sebagai propinsiacuan. Skor awal pada grafik di atas menunjukkandi atas skor 1 (satu) posisi skor di atasnya beradadi atas garis Jawa Barat. Hal ini menunjukkanbahwa kemampuan peserta didik di Jambi lebihtinggi dibandingkan kemampuan peserta didik diJawa Barat.

Faktor yang menyebabkan hal ini bisa terjadi,diantaranya adanya soal-soal di provinsi tersebutlebih sukar atau lebih mudah dari soal-soal yangdigunakan pada provinsi acuan penyetaraan.

Hasil analisis dalam bentuk tabel konversiuntuk skor-skor mata pelajaran Bahasa Indonesiadi seluruh propinsi yang di-equite ke Jawa Baratsebagai propinsi acuan dapat dilihat pada tabel 2berikut ini. Pada tabel tampak terjadi perubahanskor setelah dikonversi, baik menunjukkankenaikan maupun penurunan. Terdapat 14Propinsi yang mengalami penurunan skor setelahdikonversi adalah Bangka Belitung, Banten,Bengkulu, DKI Jakarta 1, DKI Jakarta 2, Gorontalo,Jawa Tengah, Kalimantan Barat, Kalimantan Timur,Kalimantan Selatan, Kepulauan Riau, Papua Barat,Papua, Riau, dan Sumatera Barat.

Penurunan skor tersebut menunjukkanbahwa soal-soal di propinsi tersebut tingkatkesukarannya lebih rendah dibandingkan dengantingkat kesukaran soal di propinsi acuan (JawaBarat). Sementara pada 19 propinsi lainnyamenunjukkan kenaikan skor, yang menggambar-kan bahwa tingkat kesukaran soal-soal di propinsitersebut lebih tinggi dibandingkan dengan tingkatkesukaran soal di propinsi acuan (Jawa Barat).

Hasil equating mata pelajaran Matematika.Jumlah soal mata pelajaran Matematika UASBN SDtahun pelajaran 2009/2010 terdiri dari 40 soal,dengan 10 soal anchor. Seluruh soal (40 item)dianalisis untuk mendapatkan hasil konversipenyetaraan (equate).

Gambar 4. Konversi Bahasa Indonesia Propinsi Riau dan Jambi ke Jawa Barat

Perban ding an Ko nve rsi Baha sa Indo nesia Propin si Kepri dan Ja mbi ke Jaw a Ba rat

01 02 03 04 05 06 0

1 6 11 16 2 1 2 6 31 36 4 1 4 6Sk or Kon versi

Skor

Awal

JAW A BAR ATKEP R IJAMBI

464


Tabel

2. Ko

nversi

Mata

Pelaja

ran Ba

hasa

Indon

esia

465


Gambar 5 di bawah ini menunjukkan rerata(mean) skor sebelum disetarakan dan rerata skorsetelah disetarakan. Skor mean awal tertinggiadalah provinsi DIY (28.00), dan terendah adalahMalulu Utara (19.82). Setelah disetarakan meantertinggi tetap diperoleh provinsi DIY (30.46), danterendah diperoleh provinsi Sumatera Selatan(19.65) Sementara itu kenaikan mean tertinggidiperoleh provinsi Nusa tenggara Barat (NTB)(sebanyak 2.50 poin) yaitu dari 23.32 menjadi25.82, dan penurunan mean setelah disetarakanterjadi paling tajam di provinsi Sumatera Selatam(sebanyak -3.50) yaitu dari 23.15 menjadi 19.65.Tampak pada gambar 5 di atas terdapat 25provinsi menunjukkan kenaikan mean konversiyaitu berkisar antara 0.01 sampai dengan 2.50.sisanya mengalami penurunan setelah dikonversi.

Gambar 6 adalah contoh hasil penyetaraan(equating) skor peserta didik pada UASBN SD

untuk mata ujian Matematika di Nusa TenggaraBarat dan Sumatera Selatan dibandingkan skorpeserta didik sebelum dilakukan penyetaraan(provinsi Jawa Barat sebagai provinsi acuanpenyetaraan).

Garis lurus naik (yang berada di tengah) padagambar 6 adalah skor awal Jawa Barat. Garis lurusnaik menunjukkan sebagai provinsi acuan JawaBarat memiliki skor awal dan skor konversi sama.Sementara grafik skor konversi Sumatera Selatan(dalam grafik ditunjukkan sebagai garis di bagianbawah) pada bagian skor awal 0 sampai denganskor 34 berada di bawah garis skor propinsi acuan(Jawa Barat). Namun di atas nilai skor awal 34tampak grafik garis skor Sumatera Selatan naikberada di atas grafik garis skor Jawa Barat. Halini menunjukkan bahwa setelah dilakukanpenyetaraan skor peserta didik Sumatera Selatanterhadap skor peserta didik Jawa Barat, untuk

Gambar 5. Perbandingan Mean Awal dengan Mean Konversi Matematika

466


skor awal 0 sampai 35 akan dikonversikan lebihrendah, tetapi untuk skor awal di atas 34 akandikonversikan lebih tinggi. Sehingga dapatdisimpulkan berdasarkan hasil UASBN kemampuanpeserta didik di Sumatera Selatan sampai denganskor 34 berada di bawah kemampuan pesertadidik di Jawa Barat.

Sementara garis skor Nusa Tenggara Barat(NTB) berada di atas garis Jawa Barat sebagaipropinsi acuan. Skor awal pada grafik menunjuk-kan mulai skor 1 (satu) menunjukkan posisi di atasgrafik garis Jawa Barat. Hal ini menunjukkanbahwa kemampuan peserta didik di NTB lebihtinggi dibandingkan kemampuan peserta didik diJawa Barat.

Hasil analisis dalam bentuk tabel konversimata pelajaran Matematika untuk skor-skor diseluruh propinsi yang di equite ke Jawa Baratsebagai propinsi acuan dapat dilihat pada Tabel3 berikut ini.

Pada Tabel 3 tampak terjadi perubahan skorsetelah dikonversi, baik menunjukkan kenaikanmaupun penurunan. Terdapat 11 propinsi yangmengalami penurunan skor setelah dikonversiyaitu Bangka Belitung, Bali, DKI Jakarta 1, DKIJakarta 2, Jawa Tengah, Kalimantan Barat,Kalimantan Timur, Kalimantan Selatan, KepulauamRiau, Papua, Riau, dan Sulawesi Utara.

Penurunan skor tersebut menunjukkanbahwa soal-soal di propinsi tersebut tingkatkesukarannya lebih rendah dibandingkan dengantingkat kesukaran soal di propinsi acuan (JawaBarat). Sementara pada 22 propinsi lainnya

menunjukkan kenaikan skor, yang menggambar-kan bahwa tingkat kesukaran soal-soal di propinsitersebut lebih tinggi dibandingkan dengan tingkatkesukaran soal di propinsi acuan (Jawa Barat).

Hasil equating mata pelajaran IlmuPengatahuan Alam (IPA)Jumlah soal mata pelajaran IPA UASBN SD tahunpelajaran 2009/2010 terdiri dari 40 soal, dengan10 soal anchor. Seluruh soal (40 item) dianalisisuntuk mendapatkan hasil konversi penyetaraan(equate). Gambar 7 berikut menunjukkanperbandingan mean awal dengan mean konversiuntuk setiap provinsi, dengan Jawa Barat sebagaiprovinsi acuan penyetaraan.

Gambar 7 menunjukkan rerata skor darisebelum disetarakan dan rerata skor setelahdisetarakan. Skor mean awal tertinggi adalahprovinsi Bengkulu (29.57), dan terendah adalahMalulu Utara (23.82). Setelah disetarakan meantertinggi tetap diperoleh provinsi Sulawesi Selatan(31.58), dan terendah diperoleh provinsi SulawesiTengah (25.22) Sementara itu kenaikan meantertinggi diperoleh provinsi Sulawesi Selatan(sebanyak 5.48 poin) yaitu dari 26.10 menjadi31.58, dan penurunan mean setelah disetarakanterjadi paling tajam di provinsi Sulawesi Tengah(sebanyak -3.22) yaitu dari 28.44 menjadi 25.22.Tampak pada gambar 7 di atas terdapat 26provinsi menunjukkan kenaikan mean konversiyaitu berkisar antara 0.18 sampai dengan 5.48.sisanya mengalami penurunan setelah dikonversi.Gambar 8 berikut adalah contoh hasil penyetaraan

P e rb a n d in g a n M e a n A w a l d a n M e a n K o n v e rs i M a t e m a t ik a P ro p in s i N u s a T e n g g a r a B a r a t d a n

S u m a t r e r a S e la t a n k e J a w a B a ra t

01020304050

1 6 1 1 1 6 21 26 3 1 36S ko r ko n ve r si

Skor

Awa

lJ A B A RN TBS U M S E L

Gambar 6. Perbandingan Mean Awal dan Mean Konversi Matematika di Nusa Tenggara Baratdan Sumatera Selatan ke Jawa Barat

467


Tabel

3. Ta

bel Ko

nversi

Mata

Pelaja

ran M

atema

tika

468


(equating) skor peserta didik pada UASBN SDuntuk mata ujian IPA di DI Yogyakarta dibanding-kan skor peserta didik sebelum dilakukanpenyetaraan (provinsi Jawa Barat sebagai provinsiacuan penyetaraan).

Garis lurus naik (yang berada di tengah) padagambar adalah skor awal Jawa Barat. Garis lurusnaik menunjukkan sebagai provinsi acuan JawaBarat memiliki skor awal dan skor konversi sama.Sementara grafik skor konversi DI Yogyakarta

Gambar 7. Perbandingan Mean Awal dengan Mean Konversi IPA

Gambar 8. Perbandingan Mean Awal dan Mean Konversi Propinsi DIY ke Jawa Barat

P e r b a n d in g a n M e a n A w a l d a n M e a n K o n v e r s i P ro p in s i D IY k e J a w a B a r a t

0

1 0

2 03 0

4 0

5 0

1 6 1 1 1 6 2 1 2 6 3 1 3 6S k o r K o n v e r s i

Skor

Awa

l

J A B A RD IY

469


Tabel

4. Ko

nversi

Mata

Pelaja

ran Ilm

u Peng

etahu

an Ala

m (IP

A)

470


(dalam grafik ditunjukkan sebagai garis di bagianatas) pada bagian skor awal 0 sampai denganskor 40 berada di atas garis skor propinsi acuan(Jawa Barat). Hal ini menunjukkan bahwa setelahdilakukan penyetaraan skor peserta didik DIYogyakarta terhadap skor peserta didik JawaBarat, menunjukkan bahwa kemampuan pesertadidik di DI Yogyakarta berada di atas kemampuanpeserta didik di Jawa Barat. Hasil analisis dalambentuk tabel konversi mata pelajaran IlmuPengetahuan Alam (IPA) untuk skor-skor di seluruhpropinsi yang di equite ke Jawa Barat sebagaipropinsi acuan dapat dilihat pada tabel 4.

Pada tabel 4 terjadi perubahan skor setelahdikonversi, baik menunjukkan kenaikan maupunpenurunan. Terdapat 7 propinsi yang mengalamipenurunan skor setelah dikonversi yaituBengkulu, DKI Jakarta 1, DKI Jakarta 2, Gorontalo,Jawa Tengah, Kalimantan Timur, Papua, danSulawesi Tenggara.

Penurunan skor tersebut menunjukkanbahwa soal-soal di propinsi tersebut tingkatkesukarannya lebih rendah dibandingkan dengantingkat kesukaran soal di propinsi acuan (JawaBarat). Sementara pada 26 propinsi lainnyamenunjukkan kenaikan skor, yang menggambar-kan bahwa tingkat kesukaran soal-soal di propinsitersebut lebih tinggi dibandingkan dengan tingkatkesukaran soal di propinsi acuan (Jawa Barat).

Simpulan dan SaranSimpulanPenyetaraan (equating) UASBN SD tahun 2009/2010 yang dilakukan untuk setiap mata pelajaranmenggunakan propinsi Jawa Barat sebagai acuan,pemilihan Jawa Barat sebagai propinsi acuandidasarkan pada data hasil analisis item denganmenggunakan Item Respnse Theory yangmenunjukkan data dari Jawa Barat masuk kategoristabil.

Berdasarkan hasil analisis penyetaraan(equating) UASBN SD tahun 2009/2010 pada

setiap mata pelajaran dapat disimpulkansebagaiberikut. Pertama,:analisis penyetaraan menunjuk-kan bahwa hasi l konversi antarpaket yangdigunakan di seluruh wilayah Indonesia, denganmenggunakan soal anchor yang sama untuk setiappaketnya menghasilkan nilai konversi yangbervariasi. Ada yang menghasilkan skor konversitetap, kenaikan skor, maupun penurunan skor.Kedua, hasil equating (hampir pada seluruhpropinsi) menunjukkan bahwa tingkat kesukaransoal selain anchor pada setiap propinsi berbeda.Soal-soal daerah cenderung lebih mudahdibandingkan soal nasional (soal anchor). Ketiga,sebagian besar nilai pada setiap mata pelajarandi daerah (propinsi) mengalami perubahan yangcukup signifikan setelah dilakukan konversi.Keempat, banyak faktor yang menyebabkanpenurunan maupun kenaikan skor, diantaranyapenggunaan soal yang tidak standar, peng-administrasian tes yang tidak standar, kemampuanpeserta ujian, kondisi psikologis siswa,kemampuan guru dalam menulis soal, kompetensimengajar guru, dan sebagainya.

SaranMengacu pada simpulan, maka disarankan agar:1) Perlu ditingkatkan kualitas soal-soal yangdisusun di provinsi sehingga setara dengan soal-soal nasional dengan melakukan pelatihanpenulisan soal bagi guru-guru penulis soal; 2)Perlu dipertimbangkan untuk membetuk Bank SoalDaerah sehingga soal-soal yang kelak digunakanuntuk UASBN merupakan soal-soal yang standar(memiliki karakteristik soal); dan 3) Pengadminis-trasian tes harus standar untuk menghindariadanya kecurangan-kecurangan saat tes ber-langsung. Pengawasan yang seharusnyadilakukan oleh pengawas ruang ujian, dipastikansudah dilakukan sesuai POS (Prosedur Opera-sional Standar).

471


Pustaka AcuanAngoff, W.H., 1971. Scale, norms, and equivalent scores, In RL Thorndike (ed), Educational

Measurement, Washington DC: American Council on Education.Crocker, L., Algina, J., 1986. Introduction to Classical and Modern Test Theory, NY: Holt, Rinehart and

Winston, Inc.Grondlund, E.N., 1982. Constructing Achievement Test, EC: Prentice Hall, Inc.Hamblethon, R.K., Swaninathan H.J., 1985. Item Response Theory : Priciples and Applications, Boston,

MA: Kluwer Academic Publisher.Hamblethon, R.K., Swaninathan H.J., Roger, H.J.,1991. Fundations of Item Response Theory, London:

Sage Publications.Kolen. 2004. Sofware Common Item Program for Equating (CIPE) versi 2.0.Kolen, 1984, Effectiveness of Analysis in Equipercentile Equating, Journal of Educational Statistic, 9,

pp.25-44Kolen, M. J., & Brennan, R. L., 2004. Test equating, scaling, and linking: Methods and practices. New

York: Springer.Livingstone, 2004, Equating Test Scores (Without IRT), Princeston, Nj: ETSPetersen, N.S. 1989. Educational Measurement, Scaling, Norming, and Equating, in R.L Linn (ed),

Educational Measurement, NY: Macmillan.Suryabrata, Sumadi., 1987. Pengembangan Tes Hasil Belajar, Jakarta: CV. RajawaliUndang-Undang Republik Indonesia Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional

beserta penjelasannya.Weiss, D.J.,1983. New Harizons in testing : A Test of adequacy of curvilinear score equating models, NY:

Academic Press.

Penyetaraan (Equating) Ujian Akhir Sekolah Berstandar ...

Documents

Transcript of Penyetaraan (Equating) Ujian Akhir Sekolah Berstandar ...