sipeg.unj.ac.idsipeg.unj.ac.id/repository/upload/laporan/ilovepdf... · 2020. 12. 3. · ada...

SINOPSIS DISERTASI

METODE SIMPLIFIED CIRCLE ARC DAN NOMINAL WEIGHT

MEAN EQUATING UNTUK PENYETARAN SKOR

PADA SAMPEL KECIL

DENI IRIYADI

Penelitian dan Evaluasi Pendidikan

7817167400

Diajukan Kepada Pascasarjana Universitas Negeri Jakarta

Dalam Rangka Memenuhi Persyaratan memperoleh Gelar Doktor

PASCASARJANA

UNIVERSITAS NEGERI JAKARTA

2019

KOMISI PROMOTOR*

Prof. Dr. Dali Santun Naga, MMSI.

Guru Besar Tetap Universitas Tarumanagara

Dr. Wardani Rahayu, M.Si.

Dosen Tetap Universitas Negeri Jakarta

PANITIA UJIAN DOKTOR

KETUA

Prof. Intan Ahmad, Ph.D.

Plt. Rektor Universitas Negeri Jakarta

SEKRETARIS

Prof. Dr. Ilza Mayuni, M.A.

Guru Besar Tetap Universitas Negeri Jakarta

Plt. Direktur Pascasarjana Universitas Negeri Jakarta

Dr. Wardani Rahayu, M.Si.

Koordinator Program Studi S3 Penelitian dan Evaluasi Pendidikan

PENGUJI

Prof. Dr. Yetti Supriyati, M.Si.

Guru Besar Tetap Universitas Negeri Jakarta

Dr. Yuliatri Sastrawijaya, M.Pd.


Dr. Achmad Ridwan, M.Si.


PENGUJI LUAR

Prof. Djemari Mardapi, Ph.D.

Guru Besar Tetap Universitas Negeri Yogykarta

*Komisi Promotor Merangkap sebagai Anggota Panitia Ujian Doktor

1

Sinopsis Metode Simplified Circle Arc dan Nominal Weight Mean Equating untuk

Penyetaraan Skor pada Sampel Kecil

Deni Iriyadi

SIMPLIFIED CIRCLE ARC AND NOMINAL WEIGHT MEAN EQUATING

METHOD FOR EQUATING ON SMALL SAMPLE

Abstract

This study aims to determine the equating method that can be used in small samples in

terms of the form of data distribution. This study uses the 2015 National Exam questions

in mathematics from the Education Assessment Center (PUSPENDIK) for the DKI Jakarta

and Tangerang areas. The results showed that in the sample size 36 with the number of

items 20, the equalization results using the Simplified Circle Arc method and the Nominal

Weight Mean Equating method had the same precision in the form of normal data

distribution, positive skewness data distribution, and negative skewness data distribution.

Whereas for sample size 36 with the number of items 30 and 40, the equalization results

using the Simplified Circle Arc method are more accurate than the Nominal Weight Mean

Equating method in the form of normal data distribution, positive skewness data

distribution, and negative skewness data distribution. While in the condition of sample size

50 and 100 with the number of items 20, 30 and 40, the equalization results using the

Simplified Circle Arc method are more accurate than the Nominal Weight Mean Equating

method in the form of normal data distribution, positive skewness data distribution, and

negative skewness data distribution. From the results of the research that has been done,

the use of the Simplified Circle Arc aquating method can be applied to small samples with

various variations in the number of grains. However, in the condition of sample size 36

with the number of items 20, the use of the Nominal Weight Mean Equating method can

be used as an alternative method of aquating. The use of number 20 gives the possibility

of using a more flexible aquating method with the condition of sample size according to

KEMDIKBUD rules regarding the maximum number of samples in the class. The sample

size and item will affect the use of the equating method.

Keywords: equating, simpified circle arc, nominal weight mean equating, small sample

2



Deni Iriyadi

METODE SIMPLIFIED CIRCLE ARC DAN NOMINAL WEIGHT MEAN

EQUATING UNTUK PENYETARAAN SEKOR

PADA SAMPEL KECIL

Abstrak

Penelitian ini bertujuan untuk menentukan metode penyetaraan yang dapat digunakan

pada sampel kecil dengan ditinjau dari bentuk distribusi datanya. Penelitian ini

menggunakan perangkat tes Ujian Nasional Tahun 2015 pada mata pelajaran matematika

dari Pusat Penilaian Pendidikan (PUSPENDIK) untuk daerah DKI Jakarta dan Tangerang.

Hasil penelitian menunjukkan bahwa pada kondisi ukuran sampel 36 dengan jumlah butir

20, hasil penyetaraan dengan menggunakan metode Simplified Circle Arc dan metode

Nominal Weight Mean Equating memiliki kecermatan yang sama pada bentuk distribusi

data normal, distribusi data skewness positif, dan distribusi data skewness negatif.

Sedangkan untuk ukuran sampel 36 dengan jumlah butir 30 dan 40. Hasil penyetaraan

dengan menggunakan metode Simplified Circle Arc lebih cermat daripada metode

Nominal Weight Mean Equating pada bentuk distribusi data normal, distribusi data

skewness positif, dan distribusi data skewness negatif. Sedangkan pada kondisi ukuran

sampel 50 dan 100 dengan jumlah butir 20, 30 dan 40, hasil penyetaraan dengan

menggunakan metode Simplified Circle Arc lebih cermat daripada metode Nominal

Weight Mean Equating pada bentuk distribusi data normal, distribusi data skewness

positif, dan distribusi data skewness negatif. Dari hasil penelitian yang diperoleh, maka

penggunaan metode penyetaraan Simplified Circle Arc dapat diterapkan pada sampel kecil

dengan berbagai variasi jumlah butir. Namun pada kondisi ukuran sampel 36 dengan

jumlah butir 20, penggunaan metode Nominal Weight Mean Equating dapat dijadikan

sebagai salah satu alternatif metode penyetaraan sekor. Penggunaan jumlah butir 20

memberikan kemungkinan penggunaan metode penyetaraan yang lebih fleksibel dengan

kondisi ukuran sampel sesuai aturan KEMDIKBUD mengenai jumlah sampel maksimal

dalam kelas. Ukuran sampel dan butir akan mempengaruhi penggunaan metode

penyetaraan.

Kata Kunci: penyetaraan sekor, simpified circle arc, nominal weight mean

equating. sampel kecil

3



Deni Iriyadi

PENDAHULUAN

Latar Belakang

Salah satu kunci dalam meningkatkan

mutu pendidikan secara nasional yakni

dengan meningkatkan mutu pendidikan di

tingkat sekolah. Peningkatan tersebut

berkaitan dengan sarana dan prasarana,

kompetensi guru, proses pembelajaran,

dan sebagainya. Dalam melakukan

pembelajaran di kelas, banyak hal yang

menjadi perhatian seorang guru. Salah

satu di antaranya melakukan penilaian.

Selain sebagai bahan evaluasi, hasil dari

penilaian tersebut dijadikan sebagai tolak

ukur untuk melihat kualitas dari

pendidikan peserta didik dalam suatu

satuan Pendidikan (Antara & Bastari,

2015). Penilaian yang dilakukan oleh guru

tidak lepas dari alat ukur yang berupa tes.

Bentuk penilaian yang umum digunakan

yakni bentuk tes pilihan ganda karena

bentuk tes ini dapat dengan mudah

digunakan untuk mengukur beberapa

aspek sekaligus (Ebel & Frisbie, 1991).

Penyusunan butir-butir tersebut selalu

didasarkan pada kisi-kisi. Baik guru

maupun pemerintah melakukan hal

tersebut. Sering dijumpai dalam satu

sekolah terdapat kelas paralel yang diajar

oleh dua atau lebih guru mata pelajaran

yang sama. Setiap guru memiliki

karakteristik mengajar yang berbeda,

namun dalam memberikan tes kepada

peserta didik, guru hanya berdasar pada

kisi-kisi yang ada. Ini akan menghasilkan

perangkat tes yang berbeda. Sering

dijumpai dalam satu sekolah terdapat

kelas paralel yang diajar oleh dua atau

lebih guru mata pelajaran yang sama.

Setiap guru memiliki karakteristik

mengajar yang berbeda, namun dalam

memberikan tes kepada peserta didik, guru

hanya berdasar pada kisi-kisi yang ada. Ini

akan menghasilkan perangkat tes yang

berbeda. Menyusun tes yang benar-benar

paralel tidaklah mudah. Membuat

perangkat tes yang sama tidak akan secara

sempurna saling paralel sehingga sekor

mereka tidak dapat dibandingkan secara

langsung (Gronlund, 1985). Kisi-kisi yang

ada menjadi rujukan utama dalam

menyusun setiap butir pada sekolah dan

daerah yang berbeda. Alat ukur dalam hal

ini perangkat tes yang digunakan untuk

menilai kemampuan akademik anak di

perkotaan tentu tidak adil jika juga

diterapkan di daerah pelosok. Olehnya itu,

ketika sumber acuannya sama tentunya

sekor perolehan dari butir dibuat dapat

disetarakan.

Hasil penilaian dari perangkat tes yang

berbeda diperlakukan sama tanpa

memperhatikan beberapa aspek misalnya

tingkat kesukarannya. Ini dapat

menguntungkan maupun merugikan

beberapa peserta didik. Menjadi suatu hal

yang tidak adil bagi peserta didik. Yang

menjadi permasalahan utama yakni

bagaimana menginterpetasikan hasil dari

perolehan para peserta didik yang telah

mengerjakan perangkat tes yang berbeda

agar tidak terjadi diskriminasi.

Dilakukanlah suatu proses untuk

menghilangkan diskriminasi tersebut

berupa penyetaraan sekor. Penyetaraan ini

dinilai cukup adil dilakukan. Pada

dasarnya yang dilakukan hanya

melakukan penskalaan umum agar sekor

dari berbagai perangkat tes dapat

dibandingkan. Setelah hal tersebut

4



Deni Iriyadi

dilakukan maka sekor dari perangkat tes X

dan sekor perangkat tes Y berapada pada

skala yang sama. Proses penyetaraan sekor

tersebut secara statistik disebut Equating.

(Kilmen & Demirtasli (2012) menyatakan

bahwa equating merupakan metode

statisktik yang dapat digunakan untuk

melakukan konversi nilai dari tes yang

berbeda dengan konstuk yang sama Hal

tersebut dilakukan untuk menentukan

hubungan antara dari dua tes atau lebih

(Kolen & Brennan, 2004). Penyetaraan

pada sekor perolehan peserta didik dapat

diartikan sebagai pengonversian nilai dari

suatu sekor mentah suatu butir ke butir

lainnya. Ini dilakukan untuk melihat

hubungan antar skala sekor dari dua atau

lebih perangkat tes agar sekor tersebut

dapat diperlakukan secara adil.

Penelitian ini bertujuan untuk

mengetahui metode yang baik untuk

digunakan untuk penyetaraan sekor pada

sampel kecil. Selain itu, bentuk distribusi

sekor juga menjadi fokus penelitian.

Bentuk distribusi tersebut tidak lepas dari

sekor perolehan siswa atas jawaban dari

butir yang diberikan antara lain distribusi

normal, distribusi skewness positif, dan

distribusi skewness negatif. Pada

penelitian ini dilakukan pembandingan

terhadap bentuk distribusi sekor dan

metode penyetaraan sehingga nantinya

dapat diperoleh metode penyetaraan yang

baik untuk kondisi sampel kecil serta

jumlha butir yang berbeda dengan

distribusi sekor yang berbeda.

Rumusan Masalah

Berdasarakan latar belakang,

identifikasi masalah, dan batasan masalah

yang telah dikemukakan di atas, maka

dibuat rumusan masalah sebagai berikut:

1. Manakah yang memiliki variansi hasil penyetaraan yang lebih kecil dengan

distribusi data normal menggunakan

metode Simplified Circle Arc atau

dengan menggunakan metode

Nominal Weight Mean Equating pada

kondisi ukuran sampel 36, 50, dan 100

dengan jumlah butir 20, 30, dan 40?


distribusi data skewness positif

menggunakan metode Simplified

Circle Arc atau dengan menggunakan

metode Nominal Weight Mean

Equating pada kondisi ukuran sampel

36, 50, dan 100 dengan jumlah butir

20, 30, dan 40?


distribusi data skewness negatif


Circle Arc atau dengan menggunakan


Equating pada kondisi ukuran sampel

36, 50, dan 100 dengan jumlah butir

20, 30, dan 40?

Kebaruan Penelitian (State of the art)

Berbagai metode penyetaraan yang

berdasarkan metode klasik telah

dipaparkan oleh beberapa ahli. Aminah

(2012) dalam penelitiannya

membandingkan metode Linear (Tucker

dan Levine) dengan Equipercentil

(Braund-Holland dan Chained), Skaggs

(2005) yang membandingkan metode

Linear, Mean, Unsmootied, dan Log-

Linear, Ozdemir (2017) membandingkan

5



Deni Iriyadi

metode Equipercentil dengan Circle Arc,

Aşiret & Sünbül (2016) yang

membandingkan metode Idenetity, Mean,

Linear, Circle Arc dan Presmooted,

Livingston & Kim (2008) yang

membandingkan metode Circle Arc dan

Linear, serta Babcock, Albano, &

Raymond (2012) yang membandingkan

Nominal Weight Mean, Chained, Linear,

Circle Arc, Identity dan Synthetic.

Berdasarkan metode-metode tersebut

dapat dibuat suatu perbandingan baru

dengan harapan memberikan pilihan yang

terbaik untuk penggunaan metode

equating yang efektif. Livingston & Kim

(2010b) melakukan penelitian dengan

membandingkan metode Simetryc dan

Simplified Circle Arc dengan beberapa

metode lainnya namun tidak

membandingkan keakuratan antara kedua

metode Circle Arc tersebut. Ozdemir

(2017) menyatakan bahwa metode Circle

Arc memiliki hasil yang lebih unggul

dibanding dengan metode equipercentil di

mana kedua metode tersebut tergolong

sebagai metode nonlinear yang berbasis

metode klasik. Livingston dan Kim

melakukan modifikasi terhadap metode

Circle Arc yang telah ada sebelumnya dan

membagi metode tersebut menjadi dua

bentuk, satu berbasis linear sedangkan

satunya mengandung unsur nonlinear

meskipun tetap ada unsur linearnya

(Livingston & Kim, 2008). Lebih lanjut

dalam penelitian lainnya, Livingston

menggunakan metode ini dalam

melakukan penyetaran dengan beberapa

kondisi yang berbeda termasuk ukuran

sampel dan menunjukkan hasil bahwa

metode ini memberikan hasil yang akurat

(Livingston & Kim, 2009, 2010b).

Penelitian yang dilakukan oleh Aşiret &

Sünbül (2016) menyatakan bahwa metode

Circle Arc mengasilkan eror penyetaraan

yang lebih rendah dibanding metode

lainnya pada penggunaan sampel kecil.

Babcock et al. (2012) menemukan suatu

metode yang tergolong baru yang dapat

digunakan untuk sampel yag tergolong

kecil. Mereka menyebutnya Nominal

Weight Mean Equating. Dalam

penelitiannya, Bancock, Albano, dan

Raymond membandingkan metode ini

dengan metode Circle Arc namun tidak

secara spesifik terhadap metode Circle

Arc 1 (Symetric Circel Arc) atau metode

Circle Arc 2 (Simplified Circle Arc).

Hasilnya menunjukkan bahwa metode

Nominal Weight Mean Equaitng setelah

dibandingkan dengan beberapa metode

lainnya memberikan hasil yang paling

efektif.

Dari penjelasan di atas dapat dibuat

suatu perbandingan mengenai metode

equating yakni menggunakan Metode

Simplified Circle Arc dan Nominal Weight

Mean Equating. Kedua metode tersebut

pada dasarnya merupakan metode klasik

yang memiliki kesamaan yakni

penggunaannya pada sampel kecil. Hal

yang berbeda dari keduanya yakni metode

Nominal Weight Mean Equating bersifat

linear sedangkan metode Simplified Circle

Arc bersifat nonlinear meskipun di

dalamnya juga terdapat unsur linear.

Bentuk distribusi juga memiliki andil

dalam proses penyetaraan. Menurut

Naiman, Zirkel, & Rosenfeld (1986)

bahwa akurasi pada setiap aplikasi

statistik tergantung dari dua faktor utama

6



Deni Iriyadi

yaitu ukuran sampel dan bentuk asli

distribusi populasi. Sejalan dengan hal

tersebut, penelitan Uysal & Kilmen (2016)

mengemukakan bahwa distribusi

kemampuan juga berpengaruh terhadap

hasil penyetaraan. Penelitian tersebut

menggunakan pendekatan teori modern

sehingga melakukan estimasi terhadap

kemampuan responden. Lebih lanjut

Uysal dan Kilmen membagi 3 distribusi

tersebut yakni Normal, Skewness Positif,

dan Skewness negatif. Hasil penelitian

sebelumnya juga menyatakan bahwa

distribusi kemampuan juga memiliki

pengaruh terhadap hasil equating (Uysal

& Kilmen, 2016). Yang menjadi pembeda

yakni mengenai distibusi yang digunakan

yang sebelumnya melihat distribusi

kemampuan, penelitian ini menggunakan

distibusi data raw score mengingat

metode penyetaraan yang digunakan

merupakan metode klasik.

Dalam beberapa penelitian yang

menggunakan sampel kecil memberikan

beragam variasi ukuran sampel.

Sementara Aşiret & Sünbül (2016)

menyebutkan bahwa ukuran sampel 50

atau lebih memberikan hasil yang baik

berdasarkan nilai RMSE. S. Kim,

Livingston, & Lewis (2011) melakukan

penelitian pada sampel kecil yakni 10

hingga 200 responden. Albano (2015)

melakukan penelitian tentang metode

linear dengan menggunakan sampel 30,

50, 100, dan 300. S. Kim & Livingston

(2010) melakukan penelitian dengan

menggunakan sampel kecil dengan 10, 25,

50, dan 100. Penelitiannya menunjukkan

bahwa sampel dengan rentang 25 hingga

50 memberikan hasil yang lebih akurat.

Puhan (2011) melakukan penelitian

dengan ukuran sampel 25, 50, 100, dan

500 (ukuran sampel 500 pada dasaranya

tidak dapat dipertimbangkan sebagai

sampel kecil). Babcock et al. (2012)

menggunakan ukuran sampel 20, 50, dan

80. Berdasakan beberapa hasil penelitian

di atas, pada umumnya rentang

penggunaan sampel kecil mulai 20 hingga

200. Oleh karena itu, penelitian ini

menggunakan sampel sebesar 36, 50, dan

100 responen. Pemilihan ukuran sampel

36 didasari pada kondisi jumlah siswa

yang diperbolehkan oleh Kemdikbud

sesuai dengan Peraturan Menteri

Pendidikan Dan Kebudayaan Republik

Indonesia Nomor 17 Tahun 2017 Tentang

Penerimaan Peserta Didik Baru Pada Pasal

24 yakni jumlah maksimal pada siswa

dalam satu kelas maksimal 36 orang

(Kemendikbud, 2017). Ukuran sampel

tersebut juga masih tergolong sampel kecil

berdasarkan beberapa penelitian yang

terlah diuraikan sebelumnya.

Panjang tes yang digunakan pada

penelitian ini mengacu pada jumlah butir

maksimal yang diujikan pada Ujian

Nasional (UN) yakni sebanyak 40 butir.

Untuk panjang tes yang lain merupakan

ketetapan peneliti dengan beralasan bahwa

beberapa materi ajar memiliki lingkup

materi yang tidak begitu luas sehingga

jumlah butir soal yang diperlukan juga

relatif sedikit. Dengan demikian pada

penelitina ini menggunakan panjang tes

20, 30 , dan 40 bentuk variasi dari panjang

tes dengan kelipatan 10.

7



Deni Iriyadi

KAJIAN TEORI

Distribusi Sekor

Data penelitian akan selalu membentuk

suatu sebaran distribusi. Hal tersebut

disebabkan oleh perolehan sekor yang

dimiliki peserta didik. Beberapa kondisi

menjadikan distribusi tersebut sebagai

suatu prasyarat. Sama halnya untuk proses

penyetaraan yang dipengaruhi oleh

distibusi dari kedua kelompok responden.

Hasil belajar tersebut diharapkan

berbentuk distribusi normal. Namun

demikian tidak dapat sertamerta hal

tersebut dapat diperoleh begitu saja.

Kenyataannya terdapat beberapa bentuk

distribusi yang mungkin terjadi.

Distribusi Probabilitas Normal

Ketika melakukan perhitungan

terhadap suatu kelompok data, terkadang

bentuk distribusi dari kelompok tersebut

menjadi hal yang diperhatikan. Distribusi

normal adalah salah satu distribusi

probabilitas kontinu yang paling penting

dan banyak digunakan dalam statistik dan

bidang ilmu lainnya. Distribusi normal

termasuk distribusi dengan variabel

kontinum (Ahsanullah, Kibria, & Shakil,

2014).

Salah satu cara yang mudah untuk

mengecek distribusi normal suatu data

yakni dengan melihat grafik/kurva. Salah

satu yang umum dan efektif digunakan

yakni Q-Q Plot. Selain itu terdapat

beberapa model grafik lainnya yang juga

dapat digunakan yakni histogram, box-

plot, dan stem and leaf (Razali & Wah,

2011). Meskipun metode grafis dapat

berfungsi sebagai alat yang berguna untuk

memeriksa normalitas sampel, namun

metode ini masih belum cukup untuk

memberikan bukti konklusif untuk asumsi

normal berlaku.

Beberapa peneliti biasa menggunakan

uji normalitas seperti Shapiro-Wilk atau

Kolmogorov-Smirnov. Lebih lanjut Razali

& Wah (2011) menggunakan 4 jenis tes

formal untuk menentukan normalitas

yakni: Shapiro-Wilk, Kolmogorov-

Smirnov, Lilliefors, dan Anderson-

Darling. Hasil dari formula-formula

tersebut dapat menjadi dasar untuk

menyatakan kenormalan suatu data.

Skewness Distribusi

Ketika data tersebut tidak berdistribusi

normal, maka kita harus mengecek

ketidaknormalan tersebut. Salah satu cara

yakni dengan mengukur skewness (Dorić,

Nikolić-Dorić, Jevremović, & Mališić,

2009). Agresti dan Finlay menyatakan

bahwa dalam distribusi skewness, nilai

rerata terletak pada arah miring (ekor yang

lebih panjang) relatif terhadap median

(Agresri & Finlay, 2009). Distribusi tidak

normal yang dipandang dari nilai

skewnessnya dibagi menjadi 2 yakni: (1)

skeweness poisitif dan (2) skeweness

negatif. Skewness adalah ukuran simetri

dalam suatu distribusi. Data simetris akan

memiliki kemiringan sama dengan 0. Jadi,

distribusi normal akan memiliki

kemiringan 0. Secara konseptual,

skewness menggambarkan sisi distribusi

mana yang memiliki ekor yang lebih

panjang (Paul Von, 2010). Skewness pada

dasarnya mengukur ukuran relatif dari dua

ekor berupa ukuran asimetri suatu

distribusi.

8



Deni Iriyadi

Sama halnya dengan distribusi normal,

skeweness positif (kanan) dan skeweness

negatif (kiri) juga memiliki beberapa

ketentuan. Skewness positif (kanan)

memiliki rasio rerata terhadap median

lebih dari 1 karena pada distribusi ini nilai

rerata biasanya akan lebih besar dari pada

median (Tabor, 2010). Skewness juga

dapat dihitung dengan menggunakan

formula. Tabor menyatakan bahwa

skewness positif (kanan) dapat ditentukan

melalui nilai kuartil berupa rasio dari

kuarti 1 (Q1) dan kuartil 3 (Q3) yang

dirumuskan (𝑚𝑎𝑥 − 𝑄3)/(𝑄1 − 𝑚𝑖𝑛) dimana ketika nilainya lebih dari 1 maka

dapat disimpulkan bahwa data tersebut

memiliki sebaran skewness positif (kanan)

(Tabor, 2010). Nilai negatif untuk

skewness menunjukkan data dengan ekor

yang miring ke kiri dan nilai positif untuk

skewness menunjukkan data dengan ekor

yang miring kanan. Skewness kiri

menyatakan bahwa ekor kiri relatif lebih

panjang daripada ekor kanan. Demikian

pula, skewness kanan berarti ekor kanan

relatif panjang dengan ekor kiri. Jika ekor

panjang ada di sebelah kanan, maka garis

miringnya ke kanan atau positif. Jika ekor

panjang ada di sebelah kiri, maka

kemiringannya adalah ke kiri atau negatif

(Doane & Seward, 2011; Paul Von, 2010).

Denga demikian, kita dapat

mengidentifikasi dengan mudah bentuk

dari suatu distribusi data hanya dengan

melihat arah distribusinya.

Panjang Tes

Jumlah butir dalam suatu tes dalam

dunia psikometri lebih dikenal dengan

istilah panjang tes. Hal ini sejalan dengan

pendapat Ebel & Frisbie (1991) bahwa

jumlah butir soal dalam suatu perangkat

tes ditentukan berdasarkan ketersediaan

waktu pelaksanaan tes. Beberapa tes

dibatasi sampai 50 menit, terkadang lebih

atau kurang, hal ini disesuaikan dengan

jumlah waktu dalam pertemuan di kelas.

Jumlah butir dalam suatu tes yang dapat

dijawab oleh peserta tes setiap menit

tergantung pada jenis pertanyaan yang

digunakan, kesulitan proses berpikir yang

digunakan untuk menjawab butir soal, dan

kebiasaan pengerjaan soal yang dimiliki

oleh peserta tes. Sehingga pada akhirnya,

jumlah butir soal yang digunakan dalam

suatu tes juga tergantung pada

keseluruhan cakupan materi (Ebel &

Frisbie, 1991). Panjang tes juga pada

akhirnya akan berpengaruh pada tingkat

reliabilitas tes tersebut. Hal ini sejalan

dengan pendapat Gunawan (2015) bahwa

semakin banyak jumlah butir tes yang

digunakan akan semakin tinggi reliabilitas

tes tersebut.

Panjang tes dengan 40 butir soal di

dalam penelitian ini adalah seperangkat

pertanyaan dengan bentuk pilihan ganda

biasa yang terdiri atas 40 butir pertanyaan.

Hal ini mengacu kepada Standar

Kompetensi Lulusan (SKL) yang

diterbitkan oleh Badan Standar Nasional

Pendidikan (BSNP) dan akan digunakan

dalam penyusunan soal Ujian Nasional.

Sementara untuk panjang tes yang lain

disesuaikan dengan kodisi jenis tes yang

diberikan. Misalnya untuk soal yang

jenisnya berupa bentuk perhitungan

manual jumlah tes yang diberikan umunya

lebih seidikit (20 butir) jika dibanding

dengan bentuk tes lainnya untuk

9



Deni Iriyadi

memberikan cukup waktu kepada yang

mengerjakan tes dapat menyelesaikannya.

Panjang tes yang relatif kecil sering

digunkan pada jenjang pendidikan yang

rendah (Fitzpatrick & Yen, 2001). Hal

tersebut menjadi dalah satu alasan dalam

penggunaan panjang tes yang beragam.

Dengan demikian tidak hanya jenjang

pendidikan tinggi saja penelitian ini dapat

diterapkan, namun juga pada jenjang

pendidikan rendah. Lebih lanjut

Fitzpatrick & Yen (2010) menyatakan

bahwa akurasi yang lebih baik diperoleh

dengan meningkatkan jumlah item.

Dengan demikian dilakukan penyesuaian

tehadap panjang tes maksimum yang

dilakukan pada ujian di Indonesia untuk

menjamin reliabilitas intrumen yang baik.

Pada pedoman penilaian untuk kurikulum

2013 tidak dijelaskan mengenai jumlah

minimun dam maksimum butir soal yang

dapat diujikan. Hal tersebut hanya

berdasar pada materi ajar yang akan

diujikan serta jenis penilaian yang akan

diberikan.

Seperti yang telah dijelaskan

sebelumnya bahwa panjang tes identik

dengan nilai reliabilitas. Semakin panjang

suatu tes maka akan semakin reliabel tes

tersebut. Sebagai jumlah panjang tes

standar yang digunakan yaitu 40. Jumlah

tersebut mengacu pada jumlah panjang tes

yang digunakan pada Ujian Nasional.

Sementara untuk panjang tes 20

merupakan estimasi panjang tes yang

dianggap tidak sedikit dan pada umumnya

dapat digunakan di tingkat kelas untuk

melaksanakan beberapa jenis ujian.

Jumlah butir tes yang kecil pada umunya

digunakan pada jenjang pendidikan

rendah (Fitzpatrick & Yen, 2001). Selain

itu ditentukan dengan pertimbangan

bahwa jumlah butir yang sedikit akan

rentang terhadap kesalahan pengukuran

(Kruyen, Emons, & Sijtsma, 2012).

Jumlah soal yang demikian sering

digunakan pada beberapa mata pelajaran

yang disesuaikan dengan jumlah pokok

bahasan atau materi aja yang akan

diujikan. Sementara untuk jumlah panjang

tes 30 merupakan ketetapan dari peneliti

sebagai bentuk variasi dari panjang tes

yang ada (20, 30, dan 40) dengan kelipatan

10.

Penyetaraan Sekor (Equating)

Equating merupakan suatu cara yang

dapat digunakan untuk melakukan proses

penyetaraan sekor dari hasil tes dengan

menggunakan metode statistika dan

psikometrika sehingga kedua sekor dari

perangkat tes tersebut dapat dibandingkan

(Kolen & Brennan, 2014). Equating

digunakan untuk memberikan suatu skala

sekor yang sama sehingga sekor perangat

tes yang disetarakan dapat dipertukarkan

atau dibandingkan satu sama. Beberapa

ahli menyatakan bahwa metode equating

dapat menjadikan sekor dari perangkat tes

yang berbeda dapat dipertukarkan dengan

pengkonversian nilai dari tes yang berbeda

namun mengukur konstruk yang sama

(Hanlbleton, Swaminathan, Rogers, &

Hambleton, 1991; Kilmen & Demirtasli,

2012; S. Kim, von Davier, & Haberman,

2006; Ozdemir, 2017). Perangkat tes yang

akan disetarakan harus memuat konten

yang sama, tingkat kesulitan, dan

reliabilitas yang relatif serupa. Crocker &

Alglna (2008) menyatakan bahwa

10



Deni Iriyadi

equating merupakan suatu proses yang

menyamakan nilai pada dua instrumen tes.

Instrumen X dan instrumen Y dianggap

setara jika X dan Y mengukur sifat yang

sama dengan reliabilitas yang sama. Untuk

dapat dilakukan penyetaraan sekor,

perangkat tes harus disusun berdasarkan

konten dan konstruk yang sama serta

spesifikasi yang sama.

Sekor yang disetarakan memiliki arti

yang sama terlepas dari kepada siapa dan

kapan tes tersebut diberikan (Herkusumo,

2011). Equating tidak bermaksud hanya

untuk menyesuaikan perbedaan sekor,

tetapi harus diterapkan hanya pada tes

yang dirancang untuk spesifikasi yang

sama. Sekor tes yang diperoleh melalui

penyetaraan antara perangkat tes, nilai

yang diperoleh dapat dipertukarkan.

Dari pendapat di atas dapat

disimpulkan bahwa equating merupakan

prosedur statistika yang digunakan untuk

melakukan transformasi sekor dari suatu

perangkat tes terhadap perangkat tes

lainnya yang mengukur konstruk yang

sama. Pada penelitian ini, peneliti

menggunakan metode klasik sebagai dasar

pemilihan metode equating dengan

pertimbangan bahwa metode tersebut

lebih familiar, rasional, dan mudah untuk

diterapkan (Livingston, 2004). Beberapa

peneliti kemudian membuat beberapa

bentuk perbandingan metode equating.

Metode Penyetaraan Nominal Weight

Mean Equating (NWME)

Beberapa metode penyetaraan

dikembangkan berdasarkan metode

penyetaraan yang telah ada sebelumnya.

Metode tersebut dibuat sebagai bentuk

perbaikan atas kelemahan dari metode

sebelumnya. Salah satu di antaranya yakni

metode Nominal Weight Mean Equating

(NWME). Metode ini merupakan salah

satu bentuk metode penyetaraan linear

pengembangan dari Tucker Method yang

ditujukan untuk penyetaraan dengan

sampel kecil (Babcock et al., 2012;

LaFlair, Isbell, May, Arvizu, & Jamieson,

2017). persamaan (1) untuk metode

Nominal Weight Mean Equating:

………(1)

𝑌𝑁𝑊𝑀𝐸∗ menunjukkan hasil penyetaraan

sekor dari perangkat tes Y ke perangkat tes

X. Seluruh nilai yang terdapat pada

perangkat tes X ketika disubtitusi pada

persamaan di atas, akan diperoleh nilai

penyetaraan perangkat tes Y.

Metode Penyetaraan Simplified Circle

Arc (SCA)

Metode Circle Arc merupakan salah

satu metode nonlinear yang menjelaskan

hubungan nonlinear antara sekor

(Ozdemir, 2017). Livingston dan Kim

menjelaskan bahwa metode ini merupakan

metode penyetaran nonlinier (S. Kim &

Livingston, 2010; Livingston & Kim,

2009). Metode ini dapat melakukan

penyetaraan dengan mereduksi jumlah

parameter untuk mengestimasi hubungan

penyetaraan dengan sampel kecil (Aşiret

& Sünbül, 2016). Hal penting pada metode

ini yakni menentukan dua titik ekstrim

11



Deni Iriyadi

(maksimum dan minimum) dan titik

tengah yang diperoleh dari data, kemudian

membatasi kurva penyetaraan untuk

melewati titik-titik tersebut. Titik

maksimum (Xmax,Ymax) ditentukan oleh

sekor maksimum dari setiap perangkat tes

sedangkan untuk titik minimum (Xmin,Ymin)

ditentukan oleh sekor minimum dari setiap

perangkat tes. Titik tengah merupakan

hasil dari persamaan (2):

𝑌𝐶𝐿𝐸∗ = 𝜇(𝑌) +

𝜎(𝑌)

𝜎(𝑍𝑌)(𝜇(𝑍𝑋) − 𝜇(𝑍𝑌))

di mana 𝜇(𝑌) yang dapat dituliskan menjadi (𝜇(𝑋), 𝜇(𝑌)) dikarenakan penelitian ini menggunakan anchor item

(Aşiret & Sünbül, 2016; Livingston &

Kim, 2008, 2009, 2010a, 2010b; Ozdemir,

2017). Persamaan untuk penyetaraan

sekor dengan menggunakan metode

Simplified Circle Arc untuk komponen

linear komponen curve sebagai berikut:

𝑌𝑆𝐶𝐴1

∗ = 𝐿𝑖𝑛𝑒𝑎𝑟 + 𝐶𝑢𝑟𝑣𝑒

𝑌𝑆𝐶𝐴1∗ = [𝑌𝑚𝑖𝑛 + +

𝑌𝑚𝑎𝑥−𝑌𝑚𝑖𝑛

𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛(𝑋 − 𝑋𝑚𝑖𝑛)] + [𝑌𝑐(𝑆𝐶𝐴) + √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2]

𝑌𝑆𝐶𝐴1∗ = 𝑌𝑚𝑖𝑛 + 𝑌𝑐(𝑆𝐶𝐴) +


𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛(𝑋 − 𝑋𝑚𝑖𝑛) + √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2

atau

𝑌𝑆𝐶𝐴2∗ = 𝐿𝑖𝑛𝑒𝑎𝑟 + 𝐶𝑢𝑟𝑣𝑒

𝑌𝑆𝐶𝐴2∗ = [𝑌𝑚𝑖𝑛 + +


𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛(𝑋 − 𝑋𝑚𝑖𝑛)] + [𝑌𝑐(𝑆𝐶𝐴) − √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2]

𝑌𝑆𝐶𝐴2∗ = 𝑌𝑚𝑖𝑛 + 𝑌𝑐(𝑆𝐶𝐴) +


𝑋𝑚𝑎𝑥−𝑋𝑚𝑖𝑛(𝑋 − 𝑋𝑚𝑖𝑛) − √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2

Persamaan (3) digunakan ketika titik

tengah berada di atas garis yang

menghubungkan titik minimum dan titik

maksimum sedangkan persamaan (4)

digunakan ketika titik tengah berada di

bawah garis yang menghubungkan titik

minimum dan titik maksimum.

Penelitian yang Relevan

Penelitian relevan yang pernah

dilakukan dengan menggunakan beberapa

variabel pada penelitian ini adalah sebagai

berikut:

1. Ozdemir (2017) melakukan penelitan dengan membandingkan metode yang

masuk dalam kategori nonlinear yakni

metode Equipersentil dan Circle Arc.

Penelitian ini bertujuan untuk

melakukan penyetaraan terhadap data

TIMSS 2011 dan TIMSS 2007 dengan

menggunakan anchor item. Hasil

penelitian yang diperoleh berdasarkan

Root Mean Square Error (RMSE) dan

Mean of Bootstrap Standard Error

(MBSE) menunjukkan bahwa metode

Circle Arc lebih baik dari metode

Equipercentile dengan Presmoothing.

…..(2)

…..(3)

…..(4)

12



Deni Iriyadi

2. Aşiret & Sünbül (2016) melakukan penelitian dengan membandingkan

beberapa metode penyetaraan sekor

serta ukuran sampel. Penelitian

tersebut menggunkan Root Mean

Square Error (RMSE) sebagai kriteria

dalam mengevaluasi hasil penyetaraan

tersebut. Hasil penelitiannya

menunjukkan bahwa metode Circle

Arc dan Mean pada ukuran sampel 50

atau lebih (dalam penelitiannya

menggunakan sampel 10, 25, 75, 100,

150, dan 200) dengan tingkat

kesukaran yang berbeda memberikan

Equating Error yang lebih rendah dari

metode penyetaraan lainnya.

3. Livingston & Kim (2009) melakukan penelitian dengan membandingkan

metode Chained, Levine, Tucker,

Mean, Circle Arc, dan Identity.

Penelitian tersebut menggunakan

sampel kecil serta menggunakan Root

Mean Square Error (RMSE) dan bias

sebagai alat untuk mengevaluasi hasil

penyetaraan. Hasil penelitian yang

dilakukan menunjukkan bahwa metode

Circle Arc memberikan nilai RMSE

dan bias yang rendah dibanding dengan

metode lainnya.

4. Babcock et al., (2012) melakukan penelitian dengan menggunakan


Equating pada sampel kecil (20, 50,

dan 80). Hasil penelitian ini

menunjukkan bahwa metode NWME

merupakan metode yang efektif untuk

berbagai kondisi.

5. Caglak (2016) melakukan penelitian dengan membadingkan beberapa

metode penyetaraan berdasarkan

desain Non-Equivalent Groups

Anchor-Test (NEAT). Hasil

penelitiannya menunjukkan bahwa


menghasilkan error equating yang

lebih rendah daripada metode lainnya

untuk sampel yang berukuran kecil.

6. Uysal & Kilmen (2016) melakukan penelitian tentang distribusi

kemampuan yang terbagi atas tiga

yaitu distribusi normal, distribusi

skewness positif, dan distribusi

skeweness negatif. Hasil penelitian

tersebut menunjukkan bahwa

kelompok yang memiliki distribusi

kemampuan yang sama (distribusi

normal dengan distribusi normal,

distribusi skewness positif dengan

distribusi skewness positif, dan

distribusi skewness negatif dengan

distribusi skewness negatif)

mengasilkan Error Equating yang

rendah jika dibandingkan dengan

kelompok yang memiliki distribusi

kemampuan yang saling berbeda.

METODOLOGI PENELTIAN

Penelitian ini termasuk penelitian

eksperimen. Penelitian ini menitik-

beratkan bentuk komparatif terhadap

variabelnya. Perlakuan yang dilakukan

dalam penelitian yakni berupa metode

penyetaraan sekor dan distribusi data yang

dilakukan pada kedua kelompok.

Penelitian ini menggunakan dua

kelompok. Variabel terikat dalam

penelitian ini yaitu variansi hasil dari

penyetaraan sekor. Sedangkan untuk

variabel bebasnya yakni metode

13



Deni Iriyadi

penyetaraan, distribusi data, ukuran

sampel, dan jumlah butir.

Populasi pada penelitian ini yaitu

seluruh siswa SMP Negeri di DKI Jakarta

dan Kota Tengerang tahun 2015 untuk

paket soal POC5530 dan POC1101. Untuk

sampel penelitian dipilih acak sebanyak

36, 50, dan 100 responden untuk setiap

daerah yang masing-masing mengerjakan

perangkat tes X dan perangkat tes Y.

Pemilihan kedua tempat tersebut

dilakukan berdasarkan karakteristik soal

UN pada keduanya yang memilki

kesamaan pada beberapa soal (anchor

item) sesuai dengan desain penelitian yang

telah ditentukan yakni penyetaraan pada

perangkat tes yang memilki anchor item.

Peneliti menggunakan 2 jenis

perangkat tes dengan anchor item serta

memiliki 4 pilihan jawaban. Perangkat tes

yang digunakan dalam penelitian ini yakni

soal Ujian Nasional (UN) mata pelajaran

matematika tahun 2015 dengan kode soal

POC5530 sebagai perangkat tes X dan

kode soal POC1101 sebagai perangkat tes

Y. Intrumen yang digunakan merupakan

soal UN yang dikembangkan oleh Pusat

Penilaian Pendidikan (PUSPENDIK).

Dengan demikian seluruh unsur dari

parameter butir pada intrumen tersebut

telah memenuhi seluruh kriteria. Dengan

menggunakan asumsi tersebut

memberikan jaminan mengenai intrumen

yang digunakan baik.

Lebih lanjut bahwa untuk mengetahui

tingkat kesukaran soal dapat meilihat

tingkat kognitif pada soal tersebut. Dalam

ranah kognitif, terdapat beberapa

tingkatan kesukaran yang menjadikan

butir-butir soal yang dikembangkan

berada pada level-level tertentu. Level

taksonomi tersebut dikenal dengan

taksonomi Bloom yang direvisi oleh

Anderson yaitu: (1) mengingat, (2)

mamahami, (3) menerapkan, (4)

menganalisi, (5) menilai, dan (6)

menciptakan. Setiap level pengetahuan itu

memiliki level kesukaran yang berbeda.

Dimulai pada level yang mudah hingga ke

level yang sulit. Dari setiap butir-butir

yang ada pada kedua instrumen tersebut

(POC5530 dan POC1101) tentu memiliki

level yang berbeda yang dapat

menunjukkan tingkat kesukaran untuk

setiap butir soalnya.

HASIL PENELITIAN DAN

PEMBAHASAN

Deskripsi Data Penelitian

Dalam penelitian ini, data terbagi

menjadi tiga kelompok data yaitu: (1) data

responden yang berdistribusi normal, (2)

data responden yang berdistribusi

distribusi skewness positif, dan (3) data

responden yang berdistribusi distribusi

skewness negatif.

Deskripsi Data Kelompok

Berdistribusi Normal

Berikut boxplot dan stem and leaf

untuk dapat melihat distribusi data secara

visual untuk 30 butir soal dengan ukuran

sampel 50 seperti pada Gambar 1 dan

Gambar 2.

14



Deni Iriyadi

Perangkat Tes X Perangkat Tes Y

Gambar 1. Boxplot Kelompok Siswa

dengan Distribusi Data Normal

Perangkat Tes X

Perangkat Tes Y

Gambar 2. Stem and Leaf Kelompok Siswa

dengan Distribusi Data Normal

Pada Gambar 1 dan Gambar 2, nampak

bahwa data tersebut dapat dikategorikan

berdistribusi normal jika dilihat secara

visual. Kedudukan grafik yang menyebar

dan berkumpul di tengah menunjukkan

bahwa data tersebut berdistribusi normal.

Hal ini didukung dengan gambar boxplot

yang menunjukkan gasir wishker yang

memiliki panjang antara bagian atas dan

bawah sama. Selain itu dari boxplot juga

menunjukkan bahwa pada kelompok

tersebut tidak terdapat data outlier. Pada

diagram Stem and Leaf nampak data pada

umumnya berkumpul di tengah. Sekor

responden yang bernilai rendah dan tinggi

memiliki jumlah yang jauh lebih sedikit

dari responden yang bernilai sedang.

Secara statistik juga menunjukkan bahwa

nilai Liliefors (Dhitung) masing-masing

sebesar 0,103 dan 0,096 lebih kecil dari

nilai tabel (Dtabel = 0,125). Dari hasil

tersebut maka dapat disimpulkan bahwa

data berdistribusi normal.

Deskripsi Data Kelompok Berdistribusi

Skewness Positif





Gambar 4.

15



Deni Iriyadi


Gambar 3. Boxplot Kelompok Siswa dengan

Distribusi Data Skewness Positif

Perangkat Tes X

Perangkat Tes Y


dengan Distribusi Data Skewness Positif



berdistribusi skewness positif jika dilihat

secara visual. Kedudukan grafik yang

menyebar dan berkumpul di pada interval

nilai yang memiliki sekor rendah

menunjukkan bahwa data tersebut

berdistribusi skewness positif. Hal ini

didukung dengan gambar boxplot yang

menunjukkan gasir wishker yang memiliki

panjang antara bagian atas dan bawah

yang tidak sama di mana garis atas lebih

panjang dari garis bawah. Selain itu,

boxplot juga menunjukkan bahwa pada

kelompok tersebut tidak terdapat data

outlier. Pada diagram Stem and Leaf

nampak data pada umumnya berkumpul

pada nilai rendah. Sekor responden yang

bernilai rendah memiliki jumlah yang

tinggi daripada responden yang bernilai

tinggi. Secara statistik juga menunjukkan

bahwa nilai Liliefors (Dhitung) masing-

masing sebesar 0,171 dan 0,169 yang

nilainya lebih besar dari nilai tabel (Dtabel

= 0,125). Dengan demikian ke dua

kelompok tersebut tidak berdistribusi

normal

Secara matematis, nilai skewness yang

dijelaskan oleh Tabor menunjukkan

bahwa nilai kuartil berupa rasio “(𝑚𝑎𝑥 −𝑄3)/(𝑄1 − 𝑚𝑖𝑛)” untuk perangkat tes X sebesar 8,25 dan perangkat tes Y sebesar

2,78 yang berarti bahwa kelompok data

tersebut memiliki sebaran skewness positif

berdasarkan kriteria bahwa nilai skewnya

lebih dari 1. Sedangkan berdasarkan

persamaan skewness oleh Bowley, nilai

Fisher Pearson Standardized moment

coefficient diperoleh nilai skewness

sebesar 0,467 untuk perangkat tes X dan

0,572 untuk perangkat tes Y seperti pada

Tabel 4.5.

16



Deni Iriyadi

Nilai positif menunjukkan bahwa data

berdistribusi skewness positif. Dari

beberapa kriteria tersebut dapat dikatakan

bahwa data tersebut berdistribusi skewness

positif. Dengan demikian data pada

kelompok tersebut tergolong pada

distribusi skewness positif.

Tabel 1 Rekapitulasi Nilai Skewness

Deskripsi Data Kelompok Berdistribusi

Skewness Negatif





Gambar 6.


Gambar 5. Boxplot Kelompok Siswa dengan

Distribusi Data Skewness Negatif

Perangkat Tes X

Perangkat Tes Y


dengan Distribusi Data Skewness Negatif



berdistribusi skewness negatif jika dilihat

secara visual. Kedudukan grafik yang

menyebar dan berkumpul di pada interval

nilai yang memiliki sekor tinggi

menunjukkan bahwa data tersebut

berdistribusi skewness negatif. Hal ini

didukung dengan gambar boxplot yang

menunjukkan gasir wishker yang memiliki

panjang antara bagian atas dan bawah

yang tidak sama di mana garis bawah lebih

panjang dari garis atas. Selain itu, boxplot

juga menunjukkan bahwa pada kelompok

17



Deni Iriyadi

tersebut tidak terdapat data outlier. Pada

diagram Stem and Leaf nampak data pada

umumnya berkumpul pada nilai tinggi.

Sekor responden yang bernilai tinggi

memiliki jumlah yang banyak daripada

responden yang bernilai rendah. Secara

statistik juga menunjukkan bahwa nilai

Liliefors (Dhitung) masing-masing sebesar

0,147 dan 0,139 yang nilainya lebih besar

dari nilai tabel (Dtabel = 0,125). Dengan

demikian ke dua kelompok tersebut tidak

berdistribusi normal

Secara matematis, nilai skewness yang

dijelaskan oleh Tabor menunjukkan

bahwa nilai kuartil berupa rasio “(𝑚𝑎𝑥 −𝑄3)/(𝑄1 − 𝑚𝑖𝑛)” untuk perangkat tes X sebesar 0,167 dan perangkat tes Y sebesar

0,125 menunjukkan bahwa kelompok data

tersebut memiliki sebaran skewness

negatif berdasarkan kriteria bahwa nilai

skewnya kurang dari 1. Sedangkan

berdasarkan persamaan skewness oleh

Bowley, nilai Fisher Pearson

Standardized moment coefficient

diperoleh nilai skewness sebesar -0,716

untuk perangkat tes X dan -0,682 untuk

perangkat tes Y seperti pada Tabel 2.

Tabel 2. Rekapitulasi Nilai Skewness Negatif

Nilai negatif menunjukkan bahwa data

berdistribusi skewness negatif. Dari

beberapa kriteria tersebut dapat dikatakan

bahwa data tersebut berdistribusi skewness

negatif. Dengan demikian data pada

kelompok tersebut tergolong pada

distribusi skewness negatif.

Pengujian Hipotesis

Uji Normalitas

Pada penelitian ini, data akan diuji

dengan menggunakan analisis perbedaan

variansi dua kelompok. Berdasarkan hasil

perhitungan yang dilakukan, maka

diperoleh hasil uji normalitas Dhitung Dari hasil anaslisis menunjukkan

bahwa hanya bentuk distribusi data awal

normal yang memenuhi kriteria variasi

hasil penyetaraan yang berdistribusi

normal baik yang menggunakan metode

Simplified Circle Arc, metode Nominal

Weight Mean Equting, ukuran sampel 36

hingga 100, serta jumlah butir 20 hingga

40 dengan kriteria nilai Dhitung (untuk

ukuran sampel 36 berkisar dari 0,90 –

0,148; untuk ukuran sampel 50 berkisar

dari 0,076 – 0,115; dan untuk ukuran

sampel 100 berkisar dari 0,060 – 0,080)

lebih kecil dari nilai Dtabel (untuk ukuran

sampel 36 sebesar 0,148; untuk ukuran

sampel 50 sebesar 0,125; dan untuk

ukuran sampel 100 sebesar 0,089).

Seluruh kondisi tersebut memenuhi

kriteria normalitas. Untuk kondisi lainnya,

variansi hasil penyetaraan tidak memenuhi

kriteria normalitas dengan nilai Dhitung

lebih besar dari nilai Dtabel.

Berdasarkan teorema limit pusat

bahwa tidak menjadi masalah apapun

bentuk dari distribusi populasinya,

estimasi terhadap ukuran sampel tetap

akan berdistribusi sama (berdistribusi

normal) untuk n ≥ 30 (Agresri & Finlay, 2009; Berenson, Levine, & Krehbiel,

2012; Lind, Marchal, & Wather, 2012).

18



Deni Iriyadi

Hal tersebut dapat dijadikan sebagai

landasan untuk mempertimbangkan

prasyarat normalitas. Dengan demikian

berdasarkan penjenjelasan di atas, maka

proses analisis dapat diteruskan untuk

dilakukan analisis inferensi.

Pengujian Hipotesis

Pengujian hipotesis pada penelitian ini

dilakukan dengan menguji hipotesis nol

untuk melihat perbedaan variansi hasil

penyetaraan sekor dengan menggunakan

metode penyetaraan yang berbeda serta

distribusi sekor awal, ukuran sampel, dan

jumlah butir soal yang berbeda pula.

Sesuai dengan penjelasan sebelumnya

mengenai uji prasyarat normalitas, maka

untuk dua puluh tujuh hipotesis yang ada

dapat diuji menggunakan uji perbedaan

variansi dua kelompok.

Tabel 3. Rekapitulasi Pengujian Hipotesis

Pembahasan Hasil Penelitian

Pengujian hipotetsis penelitian tentang

perbedaan variansi hasil penyetaraan

sekor dengan menggunakan metode

penyetaraan Simplified Circle Arc (SCA)

dan Nominal Weight Mean Equating

(NWME) pada tiga jenis distribusi data,

jumlah sam menunjukkan kedua puluh

tujuh hipotesis nol (H0) ditolak atau

hipotesis penelitian (H1) diterima.

Pengujian tersebut dilakukan dengan

memperhatikan pasangan distribusi sekor

yang memilki distribusi yang sama.

Hipotesis Dengan Ukuran Sampel 36

dengan Butir 20, 30, dan 40

Pada pengujuan hipotesis yang telah

dilakukan sebelumnya menunjukkan

bahwa terdapat 3 hipotesis yang ditolak

yang terjadi pada ukuran sampel 36

dengan jumlah butir 20 pada hipotesis

pertama yakni perbandingan variansi hasil

penyetaraan sekor dengan distribusi data

normal menggunakan metode Simplified

Circle Arc dan metode Nominal Weight

Mean Equating dengan ukuran sampel 36

dan jumlah butir 20, kesepuluh yakni

perbandingan variansi hasil penyetaraan

sekor dengan distribusi data skewness

positif menggunakan metode Simplified

Circle Arc dan metode Nominal Weight

Mean Equating dengan ukuran sampel 36

dan jumlah butir 20 dan hipotesis

kesembilan belas yakni penyetaraan sekor

19



Deni Iriyadi

dengan distribusi data skewness negatif

menggunakan metode Simplified Circle

Arc dan metode Nominal Weight Mean

Equating dengan ukuran sampel 36 dan

jumlah butir 20. Ketiga hipotesis tersebut

ditolak yang berarti bahwa untuk bentuk

distribusi data normal, distribusi data

skewness positif, dan distribusi data

skewness negatif kecermatan hasil

penyetaraan dengan menggunakan metode

Simplified Circle Arc tidak memilik

perbedaan dengan kecermatan hasil

penyetaraan dengan menggunakan metode

Nominal Weight Mean Equating. Hasil

tersebut diperoleh berdasarkan pengujian

perbandingan variansi serta perbandingan

rerata RMSE hasil 30 replikasi. Kedua uji

inferensi tersebut meyakinkan akan hasil

dari pengujian hipotesis yang dilakukan

Jika ditinjau dari besaranya nilai

variansi yang dihasilkan menunjukkan

bahwa variansi dari metode Nominal

Weight Mean Equating lebih besar dari

variansi metode Simplified Circle Arc

dengan perbedaan yang tidak signifikan.

Hal tersebut diakibatkan dari ukuran

sampel dan butir yang tergolong kecil

sebagai mana kita ketahui bahwa metode

Nominal Weight Mean Equating

dikembangkan untuk penyetaraan dengan

ukuran sampel yang sangat kecil (Babcock

et al., 2012). Selain itu jumlah butir yang

tergolong kecil juga akan berpengaruh

terhadap hasil penyetaraannya. Dengan

demikian hasil penyetaraan tersebut dapat

digunakan untuk membandingkan nilai

dari kelompok yang disetarakan.

Ukuran sampel 36 dan butir 20

menjadikan sekor hasil penyetaraan

dengan menggunakan kedua metode

tersebut menjadi cermat. Ini disebabkan

ukuran sampel dan jumlah butir yang

“kecil”. Jumlah tersebut menjadikan

kemungkinan sekor perolehan dari peserta

didik memiliki nilai yang cenderung

homogen ditambah lagi dengan tingkat

kesukaran dari kedua perangkat tes yang

diberikan cenderung sama. Sementara

untuk metode Simplified Circle Arc hal

tersebut bukanlah suatu yang

berpengaruh. Dengan ukuran sampel dan

butir yang kecil makan akan menghasilkan

variansi yang kecil pula. Ketika nilai

parameter yang kita peroleh melalui

estimasi mengadung variansi yang besar,

maka itu berarti bahwa nilai parameter

yang diperoleh adalah kurang tajam atau

kurang cermat. Sebaliknya, jika nilai

parameter yang kita peroleh melalui

estimasi mengandung variansi yang kecil,

maka itu berarti nilai parameter yang kita

peroleh cukup tajam atau cukup cermat

(Naga, 1992). Dari hasil penelitian yang

dilakukan ini dapat memberikan alternatif

bagi guru baik dalam hal menentukan

metode penyetaraan yang cocok untuk

diterapkan juga mengenani jumlah butir

yang dapat digunakan. Untuk ukuran

sampel khusus pada tingkat kelas pada

umumnya telah mengikuti aturan jumlah

maksimal peserta didik sesui Peraturan

Menteri Pendidikan dan Kebudayaan

Nomor 17 tahun 2017 Pasal 24. Baik

KEMNDIKBUD maupun PUSPENDIK

tidak menentukan jumlah butir minimal

dalam penyusunan suatu instrumen

penilaian. Jumlah tersebut didasarkan

pada materi ajar dan jenis tes yang

dikembangkan. Jumlah butir 20

merupakan jumlah butir yang umun

20



Deni Iriyadi

digunakan dalam penyusunan beberapa

perangkat tes dengan cakupan materi

sedang. Jenjang pendidikan juga

mempengaruhi penyusunan jumlah butir

tes tersebut. Pada pemberian ulangan

harian pada tingkat sekolah dasar akan

berbeda dengan sekolah menengah

pertama maupun sekolah menengah atas.

Selain itu kemampuan guru dalam dalam

menyampaikan materi ajar serta

mneyusun butir soal juga akan

mempengaruhi kualitas butir soal dan

kemampuan anak dalam menjawab. Hal

tersebut tentu menjadi suatu perhatian

mengenai sekor perolehan mereka. Pada

metode penyetaraan Simplified Circle Arc

dan Nominal Weight Mean Equating

dengan kondisi tersebut tetap dapat

diterapkan untuk menjadi “alat” dalam

melakukan penyetaraan sekor. Meskipun

tidak dapat dipungkiri bahwa tingkat

kesukaran butir soal akan mempengaruhi

hasil penyetaraan sekor.

Pada ukuran sampel 36 dengan butir 30

dan 40 hipotesis untuk masing-masing

bentuk distribusi data diterima. Hipotesis

untuk bentuk distribusi nomal antara lain

hipotesis kedua dan ketiga yakni masing-

masing perbandingan variansi hasil



Circle Arc dengan metode Nominal

Weight Mean Equating dengan ukuran

sampel 36 dan jumlah butir 30 dan jumlah

butir 40. Hipotesis untuk bentuk distribusi

skewness positif antara lain hipotesis

kesebelas dan kedua belas yakni masing-

masing perbandingan variansi hasil


skewness positif menggunakan metode

Simplified Circle Arc dengan metode

Nominal Weight Mean Equating dengan

ukuran sampel 36 dan jumlah butir 30 dan

jumlah butir 40. Hipotesis untuk bentuk

distribusi skewness negatif antara lain

hipotesis kedua puluh dan kedua puluh

satu yakni perbandingan variansi hasil


skewness negatif menggunakan metode



ukuran sampel 36 dan jumlah butir 40.

Nilai variansi yang kecil menunjukkan

bahwa data pada kelompok tersebut

memiliki range yang kecil terhadap nilai

rerata serta data yang cenderung homogen.

Ketika nilai parameter yang kita peroleh

melalui estimasi mengadung variansi yang

besar, maka itu berarti bahwa nilai

parameter yang diperoleh adalah kurang

tajam atau kurang cermat. Jumlah butir

yang semakin banyak, maka kemungkinan

variasi nilai yang dihasilkan juga akan

semakin banyak. Variasi yang banyak

akan berimplikasi pada beragamnya nilai

sehingga variansinya juga akan semakin

besar. Hal ini menjadi salah satu alasan

mengapa RMSE pada penyetaraan dengan

metode Nominal Weight Mean Equating

akan menjadi lebih besar dari metode

Simplified Circle Arc. Selain itu, metode

Simplified Circle Arc baik ukuran sampel

maupun ukuran sampel tidak menjadi

suatu permasalah karena pada metode ini

nilai maksimum dan minimumlah yang

menjadi faktor penting sebagai dua titik

ekstrim mengingat metode ini

menggunakan prinsip persamaan busur

lingkaran.

21



Deni Iriyadi

Secara grafik hasil penyetaraan dapat

terlihat bahwa untuk metode Simplified

Circle Arc akan berbentuk curve yang

mengindikasikan jika sebaran nilai hasil

penyetaraan memiliki selisih yang kecil

terhadap reratanya. Metode Nominal

Weight Mean Equating pada dasarnya

berbasis linear begitupun pada metode

Simplified Circle Arc yang mengandung

unsur linear meskipun dikombinasikan

dengan komponen curve. Formula yang

diberikan oleh kedua metode tersebut

memperlihatkan beberapa kemiripan

khususnya pada kompenen linear yang

terdapat pada metode Simplified Circle

Arc. Meskipun demikian terdapat

beberapa hal yang dapat mempengaruhi di

antarnya jumlah anchor item dan jawaban

dari responden. Pada metode Nominal

Weight Mean Equating kedudukan anchor

item menjadi bagian dari formula untuk

menghitung hasil penyetaraan sekor

sedangkan pada metode Simplified Circle

Arc kedudukan anchor item digunakan

untuk hanya untuk menentukan titik

tengah saja. Selain itu, metode Simplified

Circle Arc memiliki fleksibilitas mengenai

kondis dari parameter butirnya. Albano

menyatakan bahwa metode Circle Arc

dapat digunakan dengan tingkat kesukaran

yang berbeda (Albano, 2015). Sejalan

dengan itu, Livingston dan Kim

menyatakan bahwa metode Circle Arc

menghasilkan nilai error yang rendah

daripada metode penyetaran dengan

menggunakan sampel kecil pada berbagai

kondisi (Livingston & Kim, 2009, 2010b,

2010a). Dengan demikian metode ini lebih

fleksibel dalam penggunanaannya.

Sedangkan untuk metode Nominal Weight

Mean Equating (metode linear) meskipun

tidak terlalu menekankan pada kesamaan

pada tingkat kesukaran, namun hal

tersebut tetap mempengaruhi hasil

penyetaraan sekor.

Pada penyetaraan dengan distribusi

data skewness positif, nilai variansi hasil

penyetaraan akan bernilai keci ketika pada

komponen curve untuk metode Simplified

Circle Arc menggunakan persamaan

𝑌2∗ = 𝑌𝑐(𝑆𝐶𝐴) − √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2 ……(5)

Ini terjadi karena pada distribusi

skewness positif data berada cenderung

berada pada nilai yang rendah. Rerata data

akan bernilai kecil. Ketika data tersebut

dimasukkan ke dalam persamaan (5) maka

nilai reratanya semakin kecil. Rerata yang

kecil berarti data pada kelompok tersebut

pada umumnya kecil (seperti kondisi

skewness positif). Dalam kaitannya

dengan variansi yang merupakan jarak

antara data dengan nilai rerata, maka akan

menghasilkan nilai variansi yang kecil

pula sebagai akibat dari kerapatan data

dengan reratanya.



Dari pengujian hipotesis yang telah


bahwa untuk ukuran sampel 50 seluruh

hipotesis yang diajukan diterima.

Hipotesis untuk distribusi normal yakni

hipotesis keempat, kelima, dan keenam

tentang perbandingan variansi hasil





22



Deni Iriyadi

sampel 50 dan masing-masing jumlah

butir 20, 30, dan 40. Untuk Hipotesis

tentang distribusi skewness positif yakni

hipotesis ketiga belas, keempat belas, dan

kelima belas tentang perbandingan

variansi hasil penyetaraan sekor dengan

distribusi data skewness positif


Arc dengan metode Nominal Weight Mean


masing-masing jumlah butir 20, 30, dan

40. Sementara untuk Hipotesis tentang

distribusi skewness negatif yakni hipotesis

kedua puluh dua, kedua puluh tiga, dan

kedua puluh empat tentang perbandingan

variansi hasil penyetaraan sekor dengan

distribusi data skewness negatif


Arc dengan metode Nominal Weight Mean


masing-masing jumlah butir 20, 30, dan

40. Dari seluruh hipotesis tersebut

menunjukkan bahwa metode penyetaraan

Simplified Circle Arc lebih cermat

daripada metode penyetaraan Nominal

Weight Mean Equating pada kondisi

ukuran sampel 50 dengan butir 20, 30, dan

40.

Ukuran sampel menjadi salah satu

alasan mengapa metode Simplified Circle

Arc lebih cermat dari metode Nominal

Weight Mean Equating meskipun jumlah

butirnya hanya 20. Ukuran sampel 50

menjadikan kemungkinan jawaban peserta

didik pada kelompok tersebut menjadi

beragam. Seperti yang telah dijelaskan

sebelumnya bahwa pada kondisi ukuran

sampel 36 dengan butir 20 menjadikan

kecermatan kedua metode sama, namun

pada kondisi ukuran sampel 50 hal

tersebut tidak terjadi. Metode penyetaran

Simplified Circle Arc memberikan hasil

yang lebih cermat. Ini dikarenakan ukuran

sampelnya. Selain itu, Aşiret & Sünbül

(2016) menyakan bahwa metode Circle

Arc akurat ketika sampel berada pada

ukuran sampel 50 atau lebih. Nilai

keakuratan tersebut diukur dari nilai

variansi yang kecil. Lebih lanjut

dijelaskan bahwa ketika perbedaan tingkat

kesukaran antara perangkat tes, metode

Circle Arc tetap memberikan hasil yang

baik. Hal ini menjadikan metode Circle

Arc lebih fleksibel dalam penggunaannya.

Livingston & Kim (2010a) melakukan

penelitian mengenai ukuran sampel dari

50 hingga 400 dengan kelompok yang

equivalen menunjukkan bahwa metode

Circle Arc menghasilkan akurasi yang

baik dari sampel yang dikondisikan

tersebut. Pada penelitian tersebut tidak

secara jelas mengenai metode Simplified

Circle Arc yang merupakan pembagian

dari metode Circle Arc. Namun dalam

penelitian tersebut disimpulkan secara

umum jika metode Cirlce Arc

memberikan estimasi yang baik. Ukuran

sampel dan butir menjadi salah satu alasan

mengapa metode Simplified Circle Arc

lebih cermat dari metode Nominal Weight

Mean Equatin. Sejalan dngan hal tersebut,

Aşiret & Sünbül (2016) menyakan bahwa

metode Circle Arc akurat ketika sampel

berada pada ukuran sampel 50 atau lebih.

Nilai keakuratan tersebut diukur dari nilai

RMSE yang kecil. Lebih lanjut dijelaskan

bahwa ketika perbedaan tingkat kesukaran

antara perangkat tes, metode Circle Arc

tetap memberikan hasil yang baik. Hal ini

23



Deni Iriyadi

menjadikan metode Circle Arc lebih

fleksibel dalam penggunaannya.

Dalam penyetaraan sekor, model yang

paling umum digunakan adalah model

persamaan linear, namun metode ini

memilik asumsi dasarnya bahwa dalam

populasi target, distribusi skor pada

perangkat tes X dan pada perangkat tes Y

hanya berbeda pada rerata dan standar

deviasinya (tidak memperhitungkan

distribusi data). Berkaca dengan hal ini,

asumsi tersebut susah untuk diterima

mengingat bahwa dalam penyusunan

perangkat tes hanya berpedoman pada satu

kisi-kisi yang sama. Ketika Namun, ketika

bentuk tes berbeda tingkat kesulitan,

hubungan penyetaraan di antara mereka

biasanya tidak linear. Metode nonlinear

baik digunakan ketika asumsi tingkat

kesukaran antara perangkat tes X dan

perangkat tes Y berbeda (Albano, 2015).

Tidak tekecuali dengan metode Circle Arc

yang mendefinisikan hubungan nonlinear

antara skala sekor.

Pada penyetaraan dengan distribusi

data skewness negatif, nilai variansi hasil

penyetaraan akan bernilai keci ketika pada

komponen curve untuk metode Simplified

Circle Arc menggunakan persamaan

𝑌2∗ = 𝑌𝑐(𝑆𝐶𝐴) + √𝑟𝑆𝐶𝐴

2 − (𝑋 − 𝑋𝑐(𝑆𝐶𝐴))2 …... (6)

Ini terjadi karena pada distribusi

skewness negatif data berada cenderung

berada pada nilai yang tinggi. Kurva

penyetaraan akan melengkung terbuka ke

bawah (positif). Jika diliat dari persamaan

untuk variansi nampak bahwa selisih

antara nilai penyetaran dengan nilai rerata

hasil penyetaraan tersebut. Tentu untuk

metode Simplified Circle Arc nilai tersebut

akan kecil. Sama halnya dengan bentuk

data skewness positif, pada bentuk data

skewness negatif kelompok data umumnya

berkumpul pada nilai tinggi dijumlahkan

dengan sebuah nilai yang berbentuk curve

maka akan menjadikan kelompok nilai

tersebut memiliki range yang semakin

kecil sehingga variansinya juga akan

semakin kecil. Persamaan (6) inilah yang

menjadikan hasil penyetaraan sekor pada

metode Simplified Circle Arc untuk

bentuk data awal yang berdistribusi

skewness negatif akan menghasilkan

variasi kecil sehingga khusus pada bentuk

data skwness negatif metode penyetaraan

yang cermat digunakan yakni Simplified

Circel Arc dengan persamaan curve (6).

Berbeda ketika kelompok nilai yang

berdistribusi skewness negatif

diperkurangkan dengan kelompok data

yang berbentuk curve maka range nilai

yang dihasilkan akan semakin besar

begitupun dengan variasi yang dihasilkan.



Dari pengujian hipotesis yang telah


bahwa untuk ukuran sampel 100 seluruh

hipotesis yang diajukan diterima.

Hipotesis untuk distribusi normal yakni

hipotesis ketujuh, kedelapan, dan

kesembilan tentang perbandingan variansi

hasil penyetaraan sekor dengan distribusi

data normal menggunakan metode



ukuran sampel 100 dan masing-masing

jumlah butir 20, 30, dan 40. Untuk

hipotesis tentang distribusi skewness

24



Deni Iriyadi

positif yakni hipotesis keenam belas,

ketujuh belas, dan kedepan belas tentang

perbandingan variansi hasil penyetaraan

sekor dengan distribusi data skewness

positif menggunakan metode Simplified



sampel 100 dan masing-masing jumlah

butir 20, 30, dan 40. Sementara untuk

Hipotesis tentang distribusi skewness

negatif yakni hipotesis kedua puluh lima,

kedua puluh enam, dan kedua puluh tujuh

tentang perbandingan variansi hasil


skewness negatif menggunakan metode



ukuran sampel 100 dan masing-masing

jumlah butir 20, 30, dan 40. Dari seluruh

hipotesis tersebut menunjukkan bahwa

metode penyetaraan Simplified Circle Arc

lebih cermat daripada metode penyetaraan


kondisi ukuran sampel 100 dengan butir

20, 30, dan 40.

Sama halnya pada ukuran sampel 50,

pada ukuran sampel 100 metode

penyetaraan Simplified Circle Arc

memberikan hasil penyetaran yang lebih

cermat. Ukuran sampel menjadikan hal

tersebut terjadi meskipun pada kondisi

jumlah butir 20. Pada penyetaraan klasik,

kemampuan responden akan dipengaruhi

oleh karakteristik dari perangkat soal yang

dikerjakan oleh responden. Keduanya

saling berkaitan satu sama lain. Kilmen

dan Demirtasli mengatakan bahwa dalam

melakukan penyetaraan ketika distribusi

kemampuan responden sama akan

menghasilkan keakurasian penyetaraan

yang tinggi dibanding penyetaraan yang

memilki distribusi kemampuan yang

berbeda (Kilmen & Demirtasli, 2012).

Hasil kecermatan penyetaraan yang

diberikanpun benar demikian adanya.

Ketika pasangan distribusi data yang sama

disetarakan akan memberikan nilai

variansi yang kecil. Dengan jumlah

ukuran sampel 100 memberikan

kemungkinan untuk keberagaman sekor

menjadi lebih beragam. Seperti yang telah

dijelaskan sebelumnya bahwa metode


dikembangkan atas dasar kemampuan

untuk melakukan penyetaraan pada

sampel kecil dengan menggantikan

variansi dan kovariansi menjadi jumlah

butir dan sampel. Dengan demikian

metode tersebut akan cermat dalam

menghasilkan sekor penyetaraan. Berbeda

dengan metode Simplified Circle Arc yang

lebih flesibel untuk digunakan pada

sampel kecil.

Secara umum metode Circle Arc

memeberikan hasil penyetaraan yang lebih

baik daripada metode linear (Livingston &

Kim, 2010b). Bersama dengan itu, metode


merupakan salah satu metode linear

dengan demikian secara tidak langsung

metode Circle Arc lebih baik dalam hal

kecermatan hasil penyetaraan daripada

metode Nominal Weight Mean Equating.

(S. Kim & Livingston, 2010; Livingston &

Kim, 2009) menyatakan bahwa metode

Circle Arc lebih baik dari metode

penyetaraan sekor tradisonal untuk

ukuran sampel hingga 100. Sementara

(Babcock et al., 2012) mengkhususkan

pada sampel kecil dengan lebih spesifik

25



Deni Iriyadi

jumlah ukuran sampel yang sangat kecil

(10). Dalam penelitiannya, (Babcock et

al., 2012) menjelaskan bahwa metode


merupakan pengembangan dari metode

Tucker untuk mengatasi kelemahan

terhadap ukuran sampel yang sangat kecil.

Dengan demikian pada ukuran ukuran

sampel 100 metode Simplified Circle Arc

lebih cermat dari metode Nominal Weight

Mean Equating.

Ketika bentuk tes berbeda tingkat

kesulitan, hubungan penyetaraan di antara

mereka biasanya tidak linear. Metode

nonlinear baik digunakan ketika asumsi

tingkat kesukaran antara perangkat tes X

dan perangkat tes Y berbeda (Albano,

2015). Tidak tekecuali dengan metode

Circle Arc yang mendefinisikan hubungan

nonlinear antara skala sekor. Meskipun

tingkat kesukaran dari perangkat tes yang

diberikan dapat diperhitungkan, namun

ketika diberikan ke peserta didik hasil dari

kedua intrumen tersebut akan berbeda

mengingat kemampuan dari peserta didik

yang heterogen. Dengan ukuran

sampel200 dan dengan kemampuan

responden yang heterogen menjadikan

kemungkina sekor yang dihasilkan akna

sangat beragam. Ini akan mempengaruhi

hasil penyetaraan termasuk kecermatan

dari suatu metode penyetaraan. Metode

Simplified Circle Arc dengan komponen

curvenya tidak menjadi suatu persoalan

yang berarti bagi kondisi tersebut.

Sehingga metode tersebut akan tetap

memberikan penyetaraan yag lebih cermat

daripada metode penyetaraan Nominal

Weight Mean Equating

Keterbatasan Penelitian

Beberapa keterbatasan dalam

penelitian ini antara lain:

1. Penelitian ini dilakukan dengan menggunakan data yang diperoleh dari

Pusat Penilaian Pendidikan

(PUSPENDIK) sehingga validitas dan

reliabilitas instrumen tersebut

diasumsikan telah memenuhi kriteria

reliabel. 2. Taraf sukar dari setiap butir soal di

asumsikan telah memenuhi kriteria

taraf sukar yang layak untuk digunakan

mengingat intrumen tersebut disusun

oleh Lembaga yang berkompeten

(Badan Standar Nasional Pendidikan)

dan digunakan sebagai standar untuk

menilai kelulusan peserta didik. 3. Instrumen yang digunakan merupakan

soal UN yang berjumlah 40 butir.

Penelitian terbagi atas tiga bentuk

jumlah butir yakni 20, 30, dan 40.

Penyusunan instrumen dengan jumlah

butir masing-masing 20 dan 30

menggunakan acuan dari kisi-kisi di

mana setiap Kompetensi Dasar (KD)

diwakili oleh minimal 1 butir soal.

Sebagai mana diketahui bahwa setiap

KD terdiri beberapa indikator dengan

demikian terdapat beberapa indikator

yang tidak terwakili dalam soal

tersebut khususnya pada perangkat tes

dengan 20 butir.

Kesimpulan

Berdasarkan hasil pengujian hipotesis

yang telah dilakukan pada BAB IV, maka

dapat ditarik beberapa kesimpulan di

ataranya:

26



Deni Iriyadi

1. Pada kondisi ukuran sampel 36 dengan jumlah butir 20, hasil penyetaraan

dengan menggunakan metode

Simplified Circle Arc dan metode


memiliki kecermatan yang sama pada

bentuk distribusi data normal,

distribusi data skewness positif, dan

distribusi data skewness negatif.

Sedangkan untuk ukuran sampel

dengan jumlah butir 30 dan 40, hasil

penyetaraan dengan menggunakan

metode Simplified Circle Arc lebih

cermat daripada metode Nominal

Weight Mean Equating pada bentuk

distribusi data normal, distribusi data

skewness positif, dan distribusi data

skewness negatif.

2. Pada kondisi ukuran sampel 50 dan 100 dengan jumlah butir 20, 30 dan 40,

hasil penyetaraan dengan


Circle Arc lebih cermat daripada


Equating pada bentuk distribusi data

normal, distribusi data skewness

positif, dan distribusi data skewness

negatif.

3. Penyetaraan sekor dengan menggunakan metode Simplified Cirle

Arc lebih baik digunakan

dibandingkan dengan metode


untuk berbagai distibusi sekor

respenden yang berbeda (distribusi

normal, distribusi skewness positif,

dan distribusi skewness negatif).

Namun pada kondisi ukuran sampel

36 dengan jumlah butir 20,

penggunaan metode Nominal Weight

Mean Equating dapat dijadikan

sebagai salah satu alternatif metode

penyetaraan sekor.

4. Penggunaan jumlah butir 20

memberikan kemungkinan

penggunaan metode penyetaraan yang

lebih fleksibel dengan kondisi ukuran

sampel sesuai aturan KEMDIKBUD

mengenai jumlah sampel maksimal

dalam kelas.

5. Ukuran sampel dan butir akan mempengaruhi penggunaan metode

penyetaraan.

Implikasi

Berdasarkan kesimpulan penelitian di

atas menunjukkan bahwa Simplified

Circle Arc lebih cermat dari metode


kondisi ukuran sampel dan 100 sedangkan

ukuran sampel 50 kedua metode

memberikan kecermatan yang sama

dengan berbagai kondisi jumlah butir.

Pemilihan metode Nominal Weight Mean

Equating dapat digunakan dengan alasan

kepraktisan khusus pada ukuran sampel

36 dengan butir 20 karena kecermatannya

sama dengan metode Simplified Circle

Arc. Kedua metode penyetaraan ini dapat

dijadikan guru sebagai alat untuk

menyetaraan sekor peserta didik pada

jenjang yang sama dengan perangkat tes

yang berbeda.

Saran

Berdasarkan kesimpulan dan implikasi

penelitian yang di atas, maka dapat

diajukan beberapa saran sebagai berikut:

1. Untuk penelitian selanjutnya disarankan menggunakan gabungan

27



Deni Iriyadi

bentuk pilihan ganda dengan soal esai

atau isian mengingat dalam

pelaksanaan ujian di sekolah

memungkinkan dilakukan hal seperti

itu dalam pemberian ujian.

2. Bagi instansi pemerintah yang bergerak di bidang penilaian

pendidikan sekiranya dapat

menggunakan metode Simplified Cirle

Arc sebagai salah satu metode

alternatif yang dapat digunakan untuk

melakukan penyetaraan sekor pad

tingkat kelas.

3. Untuk jumlah butir yang kecil (≤ 20) dengan ukuran sampel yang juga kecil

( ≤ 36), maka dapat menggunakan metode penyetaraan Nominal Weight

Mean Equating sebagai alat bantu

dalam melakukan penyetaraan sekor.

4. Untuk ukuran sampel selain yang disebutkan pada point tiga di atas

dapat menggunakan metode

penyetaraan Simplified Circel Arc

untuk bergai bentuk distribusi data.

5. Penyetaraan sekor dengan menggunakan metode Simplified

Circle Arc maupun Nominal Weight

Mean Equating dapat diterapkan pada

berbagai kondisi distribusi data yang

mungkin terjadi (normal, skewness

positif, dan skewness negatif).

6. Mempertimbangkan untuk menggunakan jumlah butir 20 untuk

ukuran sampel kecil (≤ 36) sebagai komponen penilaian di kelas dengan

merujuk pada kemampuan guru dalam

menyapaikan materi ajar dan

menyusun soal.

7. Pada kondisi di mana kemampuan guru dalam menyusun tes tidak sama,

maka dapat menggunakan metode

penyetaraan Simplified Circle Arc

sebagai metode penyetaraan sekor

mengingat metode tersebut tidak

terlalu dipengaruhi oleh tingkat

kesukaran soal.

DAFTAR PUSTAKA Agresri, A., & Finlay, B. (2009). Statistical

Methods for the Social Sciences. USA:

Pearson.

Ahsanullah, M., Kibria, B. M. G., & Shakil, M.

(2014). Normal and Student ’ s t

Distributions and Their Applications.

(C. P. Tsokos, Ed.) (4th ed.). Prancis:

Atlantis Press.

https://doi.org/10.2991/978-94-6239-

061-4

Albano, A. D. (2015). A General Linear

Method for Equating With Small

Samples. Journal of Educational

Measurement, 52(1), 55–69.

Aminah, N. S. (2012). Karakteristik metode

penyetaraan skor tes untuk data

dikotomos. Jurnal Penelitian Dan

Evaluasi Pendidikan, 16(Special Issue

for UNY’s 48th Dies-Natalis), 88–101.

https://doi.org/10.21831/pep.v16i0.110

7

Antara, A. A. P., & Bastari, B. (2015).

Penyetaraan Vertikal Dengan

Pendekatan Klasik Dan Item Response

Theory Pada Siswa Sekolah Dasar.

Jurnal Penelitian Dan Evaluasi

Pendidikan, 19(1), 13–24.

https://doi.org/10.21831/pep.v19i1.455

1

Aşiret, S., & Sünbül, S. Ö. (2016).

Investigating test equating methods in

small samples through various factors.

Kuram ve Uygulamada Egitim Bilimleri,

28



Deni Iriyadi

16(2), 647–668.

https://doi.org/10.12738/estp.2016.2.27

62

Babcock, B., Albano, A., & Raymond, M.

(2012). Nominal Weights Mean

Equating: A Method for Very Small

Samples. Educational and

Psychological Measurement, 72(4),

608–628.

https://doi.org/10.1177/0013164411428

609

Berenson, M. L., Levine, D. M., & Krehbiel,

T. C. (2012). Basic Business Statistics:

Concepts and Applications. (Eric

Svendsen, Ed.) (Twelfth Ed). New

Jersey: Prentice Hall.

Caglak, S. (2016). Comparison of Several

Small Sample Equating Methods under

the NEAT Design. Turkish Journal of

Education, 5(3), 96.

https://doi.org/10.19128/turje.16916

Crocker, L., & Alglna, J. (2008). Introduction

to Classical and Modern Test Theory.

(M. Stranz, Ed.), Harcourt Brace

Jovanovich College Publishers. USA:

Cengage Learning.

Doane, D. P., & Seward, L. E. (2011).

Measuring skewnes

sipeg.unj.ac.idsipeg.unj.ac.id/repository/upload/laporan/ilovepdf... · 2020. 12. 3. · ada...

Documents

Transcript of sipeg.unj.ac.idsipeg.unj.ac.id/repository/upload/laporan/ilovepdf... · 2020. 12. 3. · ada...