Tulisan Ahmad Arief ma'ruf
-
Upload
independent -
Category
Documents
-
view
8 -
download
0
Transcript of Tulisan Ahmad Arief ma'ruf
Universitas Indonesia
Analisis DIF Berbasis Jenis Kelamin Soal Olimpiade Biologi SLTP 2007
Tingkat Propinsi di DIY
(A Gender DIF Analysis of Biology Olympiad Test of SLTP 2007
for Provincial Level in DIY)
Ahmad Arief Ma’ruf
085 292 1111 67
Penelitian ini bertujuan untuk mengetahui ada tidaknya item soal yang mengandung
DIF serta faktor internal yang menyebabkan item soal tersebut terindikasi DIF
berdasarkan jenis kelamin pada soal olimpiade biologi SLTP tingkat provinsi tahun
2007 di DIY .
Sampel penelitian ini adalah soal Olimpiade Biologi SLTP pada seleksi OSN
tingkat provinsi di DIY sebanyak 100 item pilihan ganda. Setelah dilakukan seleksi
item, dilakukan analisis DIF dengan metode perbandingan parameter b serta metode
Mantel-Haenszel melalui output QUEST dengan cara membandingkan antara Chi-
square hitung dengan Chi-square tabel.
Penelitian ini menyimpulkan (1). ada item yang mengandung DIF berdasarkan
jenis kelamin dari keseluruhan item soal Olimpiade Biologi SLTP tingkat provinsi
tahun 2007 di DIY. Item tersebut adalah item nomor 5, 13, 29 dan 83 yang
menguntungkan kelompok peserta tes perempuan, dan item nomor 91 yang
menguntungkan kelompok peserta tes laki-laki, (2). faktor internal yang menyebabkan
item-item tersebut terindikasi DIF berdasarkan jenis kelamin adalah: pertama, untuk
item nomor 5, 13, 29 dan 83 materi soal secara substansial memiliki kelekatan
dengan kehidupan perempuan. Kedua, untuk item nomor 91, faktor internal yang
menyebabkan bias item adalah bentuk soal yang melibatkan tingkatan kognitif yang
lebih kompleks yaitu tingkatan analisis.
Kata kunci : DIF, jenis kelamin, faktor internal
1. Pendahuluan
Latar Belakang
Era globalisasi memberikan inspirasi positif dalam masyarakat intemasional. Sebagai
bagian dari masyarakat internasional, masa depan Indonesia sangat membutuhkan
kemampuan kompetitif di kalangan pelajar untuk bersaing secara sehat dalam
penguasaan ilmu pengetahuan dan teknologi.
Untuk mengantisipasi hal tersebut, Departemen Pendidikan Nasional melalui
Direktorat Jenderal Pendidikan Dasar dan Menengah telah memfasilitasi kegiatan-
kegiatan yang mengarah pada kreativitas siswa dalam bidang ilmu pengetahuan dan
teknologi yaitu dengan lomba-lomba baik yang berskala intemasional maupun tingkat
Universitas Indonesia
nasional seperti Olimpiade Sains Nasional (OSN)
Untuk mengukur kemampuan teoretis anak di bidang MIPA (dalam hal ini
bidang biologi) dalam pelaksanaan OSN diperlukan perangkat tes yang berkualitas.
Perangkat soal ini harus benar-benar dapat mengukur apa yang seharusnya diukur dan
memberikan hasil yang dapat dipercaya. Untuk itu, diperlukan alat ukur yang memiliki
tingkat kesulitan yang kurang lebih sepadan dengan kemampuan peserta tes, indeks
daya beda yang tinggi, serta faktor tebakan (guessing) yang seminimal mungkin
sehingga sehingga dapat memberikan informasi pengukuran yang akurat.
Selain hal-hal tersebut di atas, item tes yang baik harus terbebas dari bias. Tes
yang baik tidak memihak pada kelompok tertentu atau golongan tertentu dari peserta
tes. Tes yang baik akan memberikan hasil pengukuran yang sama terhadap peserta tes
yang memiliki kemampuan sama meskipun berasal dari kelompok atau golongan yang
berbeda. Bila tes memberikan hasil yang berbeda maka tes tersebut bias, yang berarti
perangkat tersebut tidak valid secara konstruktif. Sebuah tes yang validitasnya rendah
berartu tes tersebut tidak mampu secara akurat mengukur apa yang seharusnya diukur.
Setelah melakukan pencermatan terhadap skor tes olimpiade biologi SLTP
tingkat propinsi tahun 2007, penulis melihat perbedaan yang ekstrem pada skor rata-
rata dari peserta laki-laki dan perempuan. Perserta perempuan memperoleh skor yang
lebih tinggi daripada peserta laki-laki yang ditunjukkan oleh rerata sebesar 54,66
untuk perempuan dan 48,12 untuk lakilaki. Dari temuan ini penulis menduga adanya
bias item yang menyebabkan peserta dari kelompok jenis kelamin yang berbeda
memberikan respon yang berbeda terhadap suatu item soal.
Oleh karena itu, dalam penelitian ini penulis hendak menelaah apakah item-
item soal biologi dalam olimpiade biologi SLTP tingkat propinsi tahun 2007 di DIY
tersebut mengandung bias yang berbasis jenis kelamin. Selanjutnya, bila ditemui item
yang mengandung bias, akan ditelaah lebih lanjut untuk mengetahui faktor-faktor
internal yang menyebabkan item soal tersebut bias berdasarkan jenis kelamin.
Perumusan Masalah
Berdasarkan latar belakang tersebut, penulis merumuskan permasalahan sebagai
berikut :
Universitas Indonesia
(1). Adakah item soal yang mengandung DIF berdasarkan jenis kelamin dari
keseluruhan item soal olimpiade sains bidang biologi SLTP tingkat propinsi tahun
2007 di DIY?
(2). Faktor internal apakah yang menyebabkan item soal olimpiade sains bidang
biologi SLTP tingkat propinsi tahun 2007 di DIY tersebut terindikasi DIF
berdasarkan jenis kelamin?
2. Tinjauan Literatur
Sebagai dasar dalam berpikir dan menganalisis data, berikut ini penulis menguraikan
tinjauan literatur yang relevan, yaitu literatur mengenai tes dan Differential Item
Functioning (DIF).
2.1. Tes
Secara umum berdasarkan bentuknya, tes dapat diklasifikasikan ke dalam: (1) tes
pilihan ganda, tes benar-salah, (3) tes isian/jawaban singkat, (4) tes menjodohkan, dan
(5) tes uraian. Berbagai bentuk tes tersebut mempunyai keunggulan dan kelemahan.
Tes pilihan ganda biasanya terdiri dari sejumlah item soal. Tes yang baik
harus terdiri atas item-item soal yang baik. Pada tes pilihan ganda, item soal yang
baik harus mempunyai tingkat kesulitan yang memadai, daya pembeda yang baik, dan
berfungsinya pengecoh. Oleh karena itu, dalam mengembangkan tes pilihan
ganda harus diperhatikan tingkat kesulitan, daya pembeda, dan berfungsinya
pengecoh.
Tingkat kesulitan menunjuk kepada perbandingan antara banyaknya
peserta tes yang menjawab benar dengan .banyaknya seluruh peserta tes. Daya
pembeda menunjuk kepada selisih proporsi yang menjawab benar pada
kelompok atas dan proporsi yang menjawab benar pada kelompok bawah. Pada
perkembangannya, daya pembeda suatu item didefinisikan sebagai korelasi
antara skor item tersebut dengan skor total (McDonald, 1999 dalam Budiyono,
2005). Berfungsinya pengecoh menunjuk kepada seberapa banyak peserta yang
memilih pengecoh tersebut. Suatu item soal pilihan ganda, dikatakan
memenuhi persyaratan apabila besarnya tingkat kesulitan berkisar antara. 0,15
dan. 0,85 (Oller,1979, dalam Nurgiyantoro, 1988), besarnya daya. pernbeda 0,2 atau
Universitas Indonesia
lebih (Fernandes, 1984 dalam Kartowagiran, 2004) , dan pengecoh dipilih oleh paling
sedikit 5% dari seluruh peserta tes.
Untuk mengetahui kualitas suatu alat tes psikologi maka perlu dilakukan uji
psikomerik terhadap alat tes tersebut. Menurut Azwar (1986) para ahli psikometri
telah menetapkan kriteria bagi suatu alat ukur psikologis untuk dapat dinyatakan
sebagai alat ukur yang baik dan mampu memberikan informasi yang tidak
menyesatkan. Kriteria itu antara lain adalah valid, reliabel, norma dan praktis. Dalam
psikometrika, validitas merupakan sesuatu yang esensial.Uji psikometrik tersebur
meliputi uji validitas tes, analisis item dan uji reliabilitas.
2.1. Bias Item dan Differential Item Functioning (DIF)
Istilah Bias Item dan istilah DIF (Differential Item Functioning) sering digunakan
oleh para pakar pengukuran untuk merujuk pada konsep yang sama. Istilah “bias
item” maknanya lebih luas daripada istilah DIF yang semata-mata merupakan
hasil temuan dari olah statist ik, sementara bias telah melibatkan
analisis lanjutan secara kuali tat if dari hasil temuan olah statist ik tadi.
2.3.1. Pengertian Bias dan DIF
Suatu i tem dikatakan bias apabila dua kelompok yang memil iki
kemampuan sama memperoleh hasil yang berbeda pada item tersebut. Secara
matematis bias item dapat dinyatakan dalam bentuk probabilitas (Angoff ,1993
dalam Siregar, 2005). Artinya, orang yang mempunyai kemampuan sama
tetapi tidak memiliki peluang sama untuk memperoleh jawaban benar. Kata
Angoff:
“An item is biassed if equal able (or proficient) individuals, from difference groups,
do not have equal probabilities of answering the item correctly.”
Apabila, suatu item relatif lebih sulit untuk kelompok yang memiliki
budaya dan latar helakang pengalaman tertentu berarti hutir tersebut bias. Bias
item dalam suatu pengukuran mengindikasikan adanya kesalahan sistematik
dalam pengukuran tersebut (Cole, 1997 dalam Siregar, 2005).
Bias item memiliki dua karakter, yaitu (1) arah (direction) dan besaran
Universitas Indonesia
(magnitude). Besaran bias dapat diestimasi secara statistik. Ada berbagai
metode untuk mengestimasi besaran tersebut, antara lain: metode pendekatan
klasik, metode chi-square, pendekatan IRT, analisis faktor konfirmatori (AFK),
dan Model persamaan struktutal (MPS).
Bias item dapat terjadi sebanyak jenis pengelompokan yang diinginkan
oleh peneliti. Namun pengelompokkan yang sering dilakukan oleh para peneliti
adalah bias karena budaya dan gender. Item disebut bias budaya apabila perbedaan
kelompok yang akan diteliti atau diperbandingkan ditetapkan berdasarkan aspek
budaya (etnis, ras, dan bahasa yang digunakan).
Selanjutnya, ada dua faktor yang mempengaruhi timbulnya bias item. Secara
garis besar bias item disebabkan oleh (1) item itu sendiri yang dalam
penelitian ini disebut sebagai faktor internal, dan (2) faktor di luar item yang
dalam penelitian ini disebut faktor eksternal. Ketika kajian bias item
difokuskan pada faktor internal berart i fokus deteksi bias item adalah
karakteristik item. Apabila kajian bias item difokuskan pada faktor eksternal
maka fokus deteksi bias item adalah penempuh tes.
Bias item karena faktor internal terjadi apabila kajian difokuskan pada
komponen item, misalnya, bentuk item, mated item, kalimat dan kata yang
digunakan, gambar, petunjuk (clue), dan obyek atau stimulus yang digunakan
dalam item. Dalam penulisan item tes ada dua bentuk item yang lazim
digunakan, yaitu bentuk pilihan ganda dan bentuk uraian. Beberapa peneliti
menemukan item dalam bentuk uraian lebih adil gender ketika digunakan
untuk mengukur prestasi IPA.
Secara. konseptual, DIF dikatakan muncul pada sebuah item soal, jika peserta
tes yang mempunyai kemampuan yang sama pada konstruks yang diukur oleh tes,
tetapi berasal dari kelompok berbeda, mempunyai peluang berbeda dalam menjawab
benar item soal tersebut (Hulin, Drasgow & Paraon, 1993). Untuk menentukan
apakah suatu item soal terindikasi DIF atau tidak, diperlukan indeks DIF, yaitu indeks
yang menunjukkan seberapa kuat indikasi DIF ada pada item itu. Jika tingkat indikasi
DIF tersebut secara praktik dianggap signifikan, dapat dengan mengujinya memakai uji
statistik tertentu atau hanya dengan melihat indeksnya saja, maka item soal yang
bersangkutan dikatakan terdeteksi sebagai item DIF.
Universitas Indonesia
Dalam konteks item response theory, terjadi atau tidak terjadinya DIF
pada sebuah item soal terletak kepada fungsi respons item (item response function)
untuk item soal tersebut pada kelompok yang dipersoalkan. Kurva yang
menggambarkan fungsi respons item disebut kurva respons item atau kurva
karakteristik item (item characteristic curve, ICC).
2.3.1. Tipe Differential Item Functioning (DIF)
Terdapat dua jenis DIF, yaitu DIF uniform (konsisten) dan DIF tidak uniform (tidak
konsisten). DIF uniform muncul jika keuntungan salah satu kelompok terhadap
kelompok lainnya terjadi pada setiap level kemampuan, sedangkan DIF tidak uniform
muncul jika keuntungan salah satu kelompok terhadap kelompok lainnya tidak terjadi
pada setiap level kemampuan. Jika dikaitkan dengan pengertian interaksi, yang
popular pada uji statistik analisis variansi, DIF uniform terjadi jika tidak terclapat
interaksi antara tingkat kemampuan peserta tes dan keanggotaan kelompok dan DIF
tidak uniform terjadi jika terdapat interaksi antara tingkat kemampuan peserta tes dan
keanggotaan kelompok (Rogers & Swaminathan, 1993: 105).
DIF uniform terjadi jika kurva karakteristik item untuk suatu item soal berbeda
untuk kelompok yang berbeda dan kedua kurva tersebut tidak saling berpotongan.
Sebaliknya, DIF tidak uniform terjadi jika kurva karakteristik item untuk suatu item
soal berbeda untuk kelompok yang berbeda, namun kedua kurva tersebut
berpotongan.
2.3.2. Metode Pendeteksian DIF
Metode Perbandingan Parameter b yang digunakan untuk mendeteksi DIF item-item
tes merupakan model pengukuran yang didasarkan pada satu parameter yaitu tingkat
kesukaran soal atau Rasch Model. Tingkat kesukaran item soal yang disimbulkan
dengan delta, dimana d1 adalah tingkat kesukaran item soal dari kelompok laki-laki
sedangkan d2 adalah tingkat kesukaran item soal dari
kelompok perempuan. Peserta tes terdiri dari dua kelompok berbeda yaitu kelompok
laki-laki dan perempuan yang menempuh buku tes yang sama, maka deteksi DIF
berdasarkan jenis kelamin laki-laki dan perempuan dapat dihitung.
Universitas Indonesia
Untuk menghitung rata-rata skor dan selisih standar deviasi dari dua kelompok
yang berbeda jenis kelamin dapat menggunakan program QUEST. Kriteria untuk
menentukan item soal terindikasi DIF ditinjau dari tingkat
kesukaran soal. Tingkat kesukaran soal kelompok laki-laki (d1 ), tingkat
kesukaran soal kelompok perempuan (d2 ) dari dua kelompok peserta tes,
apabila (1) d1 – d2 >0,50 atau d1 - d2 < -0,50 dan (2) ϰ2 hitung > ϰ2
tabel, atau ϰ2
hitung > 3.841; untuk α= 0.05%, df = 1
Pada tahun 1959, Mantel dan Haenszel menampilkan prosedur untuk suatu
studi pemadanan kelompok, yang oleh Holland dan Thayer dipakai untuk
mendeteksi DIF, yang kemudian terkenal dengan metode Mantel-Haenszel. Metode
ini merupakan metode yang powerful dan digunakan di Educational Testing Service
(ETS) di Amerika Serikat (Dorans & Holland dalam Budiyono (2005).
Penggunaan metode Mantel-Haenszel berdasarkan asumsi-asumsi berikut:
(a) tes hanya mengukur satu dimensi (unidimensi); (b) kemampuan peserta tes
dinyatakan dalam skor total yang diperoleh peserta tes dari seluruh item soal dengan
menganggap setiap item soal mempunyai bobot yang lama; (c) level kemampuan
peserta tes dapat digolongkan ke dalam M kelompok yang berurutan; dan (d) setiap
peserta tes dapat dikelompokkan ke dalam satu dan hanya satu kelompok, yaitu
kelompok acuan atau kelompok fokus.
3. Metode Penelitian
Penelitian kuantitatif yang mengkaji keber-ada-an item soal yang mengandung DIF
berdasarkan jenis kelamin dari keseluruhan item soal olimpiade sains bidang biologi
SLTP tingkat propinsi tahun 2007 ini merupakan penelitian deskriptif. Penelitian ini
termasuk studi kasus, karena keterbatasan wilayah populasi penelitiannya, yaitu di
DIY, meskipun soal olimpiade sains bidang biologi SLTP 2007 tersebut berlaku untuk
seluruh Indonesia.
3.1. Populasi dan Sampel
Populasi adalah keseluruhan subjek penelitian. Populasi penelitian ini adalah soal
olimpiade sains bidang biologi SLTP pada seleksi OSN tingkat propinsi tahun 2007
Universitas Indonesia
yang dikembangkan dari kisi-kisi soal yang telah disusun oleh penyelenggara
Olimpiade Sains Nasional Depdiknas.
Sampel penelitian ini adalah soal olimpiade sains bidang biologi SLTP pada
seleksi OSN tingkat propinsi yang dujikan di DIY sebanyak 100 item bentuk pilihan
ganda.
3.2. Metode Pengumpulan Data
Data penelitian ini adalah data sekunder yang berupa lembar jawaban peserta
olimpiade biologi pada olimpiade sains bidang biologi SLTP tingkat propinsi tahun
2007 di propinsi Daerah Istimewa Yogyakarta. Data ini diperoleh dari arsip di Dinas
Pendidikan Propinsi DIY. Lembar jawaban tersebut berisi jawaban pilihan ganda dari
100 item soal.
3.3. Pengolahan dan Analisis Data
Sebelum dilakukan pengolahan data, terlebih dulu dilakukan seleksi item untuk
menganulir item-item yang kurang memenuhi syarat dari segi kualitas. Dengan
demikian data akan valid karena dihasilkan oleh item yang valid pula.
3.3.1. Seleksi Item
Seleksi item terdidi dari dua tahap, yaitu pertama, telaah item yang meliputi telaah
substansi item dan analisis item, dan kedua, pencocokan dengan model.
Setelah telaah substansi item soal, selanjutnya data skor yang telah dienri dari
lembar jawab kemudian diolah dengan menggunakan program ITEMAN untuk
mengetahui karakteristik item secara klasikal. Analisis item item menggunakan
program ITEMAN untuk mengetahui indeks tingkat kesukaran soal, daya pembeda
soal, reliabilitas dan efektivitas distraktor. Dari sinilah dapat diketahui kualitas item
soal, untuk dasar melakukan seleksi item.
Selanjutnya, butir-butir yang lolos seleksi diolah dengan program QOEST.
QUEST menawarkan suatu lingkup analisis Quesioner dan test secara komprehensif
dengan menyediakan suatu analis data dengan mengarah kepada pengembangan yang
terbaru dalam Teori Pengukuran Rasch, seperti halnya bidang prosedur analisis
tradisional. Ini meliputi suatu easy-to-use bahasa kontrol dengan output yang
Universitas Indonesia
informatif dan fleksibel. QUEST dapat digunakan untuk meng-konstruk dan mem-
validasi variabel yang berbasis observasi dichotomous dan polychotomous. Skor dan
analisis seperti instrumen test pilihan ganda, Skala Likert, item jawaban singkat, dan
item”kredit paraial”.
Dari output QUEST dapat diketahui perbandingan tingkat kesukaran soal
dengan kemampuan peserta maupun kecocokan dengan model pada masing-masing
item.
3.3.2. Analisis DIF
Dalam penelitian ini, keberadaan DIF pada masing-masing item dideteksi dengan
menggunakan perbandingan parameter b dan dengan metode Mantel-Haenszel yang
keduanya dapat dipetik dari output QUEST. Analisia dilakukan dengan
membandingkan antara Chi-square hitung dengan Chi-square tabel.
Expert judgment dilakukan dengan berkonsultasi kepada guru-guru biologi
SLTP/MTs.
4. Hasil Penelitian dan Pembahasan
Pada bab ini secara berurutan penulis akan mendeskripsikan hasil penelitian terhadap
soal-soal olimpiade sains bidang studi biologi yang digunakan untuk penjaringan
peserta OSN di Surabaya tahun 2007. Selanjutnya penulis akan membahas hasil
penelitian tersebut.
4.1. Hasil Penelitian
Dalam subbab ini akan dipaparkan data hasil penelitian yang meliputi data seleksi
item dan data analisis DIF.
4.1.1. Seleksi Item
Sebelum dikakukan uji statistik terhadap keberadaan DIF dalam suatu item soal,
terlebih dahulu dilakukan seleksi item. Seleksi ini dimaksudkan untuk menganulir
item-item soal yang kualitasnya rendah (tidak layak).
Jenis tes yang digunakan dalam OSN tersebut adalah tes prestasi (achievement
test) Materi soal-soal olimpiade sains bidang studi biologi yang diujikan di DIY ini
Universitas Indonesia
meliputi 100 item soal pilihan ganda dengan 4 pilihan (A,B,C,D). Seperti lazimnya
soal-soal biologi, dalam perangkat tes ini digunakan ilustrasi/gambar dalam beberapa
item sebagai bagian integral dari item tersebut. Sayangnya item nomor 85 sampai 100
menggunakan bentuk pilihan ganda berkait yang sudah disarankan untuk tidak
digunakan dalam penyusunan soal.
Secara umum, substansi item-item soal dalam perangkat tes OSN Biologi ini
telah memenuhi kriteria penulisan soal yang baik , hanya ada beberapa item saja yang
secara signifikan menyalahi kriteria tersebut. Item-item tersebut adalah item no
16,17,18, 38,59,87, dan 94.
4.1.1.1. Analisis Item
Analisis item secara empiris dalam penelitian ini menggunakan program ITEMAN
yang mengacu kepada teori tes klasik. Berikut ini adalah skala statistik yang diolah
melalui ITEMAN dari data skor responden yang berjumlah 408 .
Reliabilitas soal ini ditunjukkan dengan Alpha 0.878 yang berarti reliabilitas soal
ini cukup baik. Hal ini sesuai dengan penclapat Ebel (dalam Kartowagiran, 2004)) yang
mengatakan bahwa alat ukur yang memiliki koefisien reliabilitas 0,8 sudah baik Nunnally
(Kartowagiran, 2004) berpenclapat bahwa soal uraian yang memiliki koefisien reliabilitas
0,6 – 0,7 dan untuk soal pilihan ganda yang memiliki koefisien reliabilitas 0,75 – 0,90
sudah dapat dikatakan baik. Feldt dan Brehmman (Kartowagiran, 2004) mengatakan
bahwa suatu instrumen yang memiliki koefisien reliabilitas r xy z0,7 sudah dikatakan
reliabel. Sementara itu tingkat kesukaran item rata-rata sebesar 0.526 sangat bagus
menurut Dawson (Kartowagiran, 2004) item soal yang memiliki tingkat kesukaran 0,25
– 0,75 dikatakan baik.
Rata-rata daya pembeda item-item yang ada dalam soal ini juga termasuk baik,
yaitu 0.362. Fernandes (Kartowagiran, 2004) mengatakan item yang memiliki
daya pembeda lebih besar dari 0,2 adalah baik .
Dari 100 item terdapat 23 item yang dinyatakan gugur atau tidak layak. Item-
item yang gugur tersebut adalah item nomor 6, 8, 10, 15, 19, 25, 32, 38, 39, 45, 55, 59,
60, 68, 70, 74, 78, 80, 87, 88, 89, 94, dan 96. Dari 23 item yang di anulir tersebut
terdapat 5 item yang check the key, yaitu yang justru dijawab benar oleh responden
Universitas Indonesia
kelompok rendah. Dari 5 item yang check the key tersebut ternyata terdapat 4 item
yang memang secara substansial tidak bagus, yaitu nomor 38, 59, 87, dan, 94. Berikut
ini kutipan output ITEMAN dari kelima item yang terindikasi check the key tersebut.
4.1.1.2 Pencocokan dengan Model
Suatu item soal dikatakan fit dengan model apabila perolehan angka infit meansquare
item soal tersebut berada pada interval 0,72 sampai 1,33. Dan apabila diperoleh
nilai infit meansquare diluar interval 0,72 dan 1,33 maka item soal tersebut tidak
cocok dengan model. Item soal dikatakan tidak cocok (tidak fit) dengan model, artinya
item soal tersebut berperilaku tidak konsisten dengan apa yang diharapkan oleh model.
Berdasarkan output QUEST, ternyata dari 100 item tidak satu pun yang tidak fit
dengan model, karena nilai infit meansquare berada dalam interval 0,72-1,33.
Ternyata ada kecocokan antara kemampuan peserta dengan tingkat kesulitan soal.
Juga ada kecocokan parameter item dengan model. Oleh karena itu yang menjadi
dasar seleksi item dalam penelitian ini adalah hasil anaisis item secara klasik saja yang
berhasil menganulir 23 item. Dengan demikian jumlah item yang dianalisis lebih
lanjut untuk mengetahui keberadaan DIF hanya 77 item saja.
4.1.2. Analisis DIF
Ada dua macam analisis yang dilakukan dalam menganalisis DIF dalam penelitian ini,
yaitu analisis kuantitatif untuk mendeteksi keber-ada-an DIF dalam suatu item dan
analisis kualitatif guna menelaah lebih lanjut untuk mengetahui mengapa item tersebut
mengandung DIF.
4.1.2.1.Deteksi DIF dengan Model Rasch
Rasch Model yang digunakan untuk mendeteksi DIF dalam suatu item soal merupakan
model pengukuran yang didasarkan pada satu parameter yaitu tingkat kesukaran soal.
Tingkat kesukaran item soal yang disebut dengan delta, dimana delta-1 adalatr tingkat
kesukaran item soal dari kelompok laki-laki sedangkan delta-2 adalatr tingkat
kesukaran item soal dari kelompok perempuan. Peserta tes terdiri dari dua kelompok
berbeda yaitu kelompok laki-laki dan perempuan yang menjawab soal-soal seleksi
olimpiade tingkat propinsi. Kedua kelompok ini mengerjakan soal yang sama. Sebuah
Universitas Indonesia
item terindikasi DIF apabila ϰ2 hitung > ϰ2
tabel, atau Chi-SQuare hitung lebih besar
dari 3.841; untuk α= 0.05%, df = 1. Selengkapnya, tersaji pada tabel di bawah ini.
Tabel Hasil Uji Signifikansi Item yang Terindikasi Mengandung DIF
Berdasarkan Model Rasch
No. Item
Delta Adjusted
Delta Difference Chi-SQ Ket. Lk Pr Lk Pr d1-d2 std'ised
item 5 0.29 -1.02 0.29 -1.02 1.3 5.39 29.01 DIF
item 13 -0.03 -0.7 -0.03 -0.7 0.67 2.8 7.83 DIF
item 29 0.98 0.4 0.98 0.4 0.58 2.45 6.01 DIF
item 91 -2 -1.26 -2 -1.26 -0.75 -2.24 5.02 DIF
item 83 -0.61 -1.13 -0.61 -1.13 0.52 2.01 4.05 DIF
4.1.2.2. Deteksi DIF dengan metode Mantel-Haenszel
Dalam pedeteksian DIF dengan metode Mantel-Haenszel pada penelitian ini
digunakan Program QUEST. Sebuah item terindikasi DIF apabila ϰ2 hitung > ϰ2
tabel,
atau MHChi-SQuare suatu lebih besar dari 3.841; untuk α= 0.05%, df = 1.
Tabel Hasil Uji Signifikansi Item yang Terindikasi Mengandung DIF
Berdasarkan Metode Mantel-Haenszel
No.Item
MHAlpha
MHDelta
MH-Chisquare
χ2 –tabel
Keterangan
item 5 0.25 3.26 26.34 3.841 Signifikan
item 13 0.47 1.77 6.91 3.841 Signifikan
item 83 0.47 1.79 6.00 3.841 Signifikan
item 91 2.40 -2.06 5.45 3.841 Signifikan
item 29 0.50 1.63 4.67 3.841 Signifikan
Setelah dilakukan uji keberadaan DIF terhadap 100 item soal olimpiade, ternyata
kedua metode baik Rasch Model maupun metode Mantel-Haenszel ternyata
memberikan hasil yang tidak berbeda. Item yang terdeteksi DIF adalah item 5, 13, 83,
91, dan 29. Dari kelima item yang terdeteksi DIF tersebut hanya satu yang
menguntungkan laki-laki yaitu item 91, sedangkan keempat item lainnya lebih
menguntungkan perempuan.
4.2. Pembahasan
Universitas Indonesia
Pada subbab berikut ini akan dibahas satu demi satu item yang terindikasi DIF unruk
mengetahui lebih lanjut mengapa item tersebut mengandung bias. Suatu item bisa
mengandung bias jenis kelamin karena faktor internal dan eksternal. Dalam penelitian
ini, penulis hanya memfokuskan diri pada faktor internal saja.
Iten no. 5 mengandung DIF yang sangat signifikan dengan nilai MHChi-SQ
sebesar 26.34 pada taraf signifikansi 95% dan DF=1. Soal di atas lebih
menguntungkan peserta perempuan karena materi soal sangat berkaitan dengan hal-hal
yang menyangkut diri perempuan yaitu “ciri-ciri sekunder pada wanita remaja”.
Substansi yang diangkat dalam soal ini lekat dengan dunia wanita khususnya remaja.
Tentu saja kelompok peserta perempuan lebih berpeluang untuk menjawab benar. Hal
ini telah terbukti secara statistik. Seperti penelitian McPeek & O’Neill yang dikutip
Siregar (2005) bahwa anak laki-laki di amerika lebih bisa menjawab soal yang
menyangkut olehraga hockey, sementara anak perempuan lebih bisa menjawab soal
yang menyangkut kerajinan tangan.
Agar soal tersebut tidak bias, sebaiknya topik pertanyaan dialihkan kepada ciri-
ciri sekunder perkembangan remaja secara umum tanpa membedakan perempuan atau
laki-laki. Dengan demikian item soal menjadi terbebas dari bias jenis kelamin.
Ternyata kelompok peserta perempuan lebih berpeluang menjawab benar
untuk soal nomor 13 & 29 tersebut karena terbukti soal no. 13 mengandung DIF yang
secara signifikan dengan nilai MHChi-SQ sebesar 6.91 pada taraf signifikansi 95%
dan DF=1. Sedangkan soal no. 29 mengandung DIF yang secara signifikan dengan
nilai MHChi-SQ sebesar 6.00 pada taraf signifikansi 95% dan DF=1.
Kedua soal di atas mengenai tumbuh-tumbuhan. Dunia tumbuh-tumbuhan
merupakan dunia yang akrab dengan perempuan dalam kultur masyarakat Yogyakarta.
Dalam keseharian anak perempuan biasa ditugasi untuk merawat tanaman (berkebun
dan bertaman) di halaman rumah maupun di taman sekolah. Dengan demikian
perempuan lebih menaruh perhatian pada masalah-masalah yang menyangkut tumbuh-
tumbuhan. Sehingga untuk soal yang menyangkut tumbuh-tumbuhan, wanita lebih
unggul.
Dengan merujuk kepada fenomena yang dikutip Siregar (2005) bahwa suatu
item bisa menjadi bias bila ditempuh oleh kelompok laki-laki dan perempuan yang
memiliki perlakuan dan pengalaman kehidupan sehari-hari yang berbeda maka untuk
Universitas Indonesia
kasus no. 13 dan 29 di atas internal terjadi karena peserta tes dari kelompok
perempuan dimungkinkan lebih untung karena topik soal tersebut akrab dengan dunia
perempuan dalam kultur Jogja, yaitu dunia tumbuh-tumbuhan.
Soal nomor 83 mengandung DIF yang secara signifikan dengan nilai MHChi-
SQ sebesar 5.45 pada taraf signifikansi 95% dan DF=1. Soal tersebut menguntungkan
peserta tes kelompok perempuan perempuan. Kata kunci penyebab bias pada soal
tersebut adalah “darah”. Perempuan lebih perhatian pada masalah darah, seperti
halnya temuan yang mengatakan bahwa perempuan lebih bisa menjawab benar ketika
diminta membandingkan berat berbagai jenis perhiasan, liontin misalnya (Siregar,
2005).
Boleh jadi, perempuan lebih menaruh perhatian dan minat untuk topik
pelajaran yang menyangkut masalah “darah”. Dalam kehidupan sehari-hari, bagi
perempuan yang sudah menginjak remaja selalu disibukkan oleh masalah darah yaitu
saat datang bulan (menstruasi). Siklus kehidupan yang selalu melibatkan darah
tersebut sangat boleh jadi menyebabkan perempuan memiliki rasa ingin tahu yang
lebih besar daripada laki-laki dalam masalah “darah”.
Soal no. 91 mengandung DIF yang secara signifikan dengan nilai MHChi-SQ
sebesar 4.67 pada taraf signifikansi 95% dan DF=1. Berbeda dengan keempat soal
terdahulu, DIF untuk soal nomor 91 ini mengarah ke kelompok peserta tes laki-laki
dengan nilai delta sebesar -2, sementara perempuan -1,26. Meskipun intensitasnya
tidak sebesar soal no. 5, 13, dan 29, namun soal no. 91 ini secara signifikan
mengandung DIF.
Kasus DIF dalam soal tersebut cukup unik, topik pertanyaan menyangkut
masalah tumbuhan yang pada soal no. 13 dan 29 menguntungkan kelompok peserta
perempuan, tetapi pada soal no. 91 ini justru lebih menguntungkan kelompok peserta
tes laki-laki.
Untuk menjawab soal di atas melibatkan tingkatan kognitif yang tinggi dalam
taksonomi Bloom, yaitu tingkat analisis. Sementara itu, kata Kartini (1980)
kemampuan intelektual wanita lebih rendah jika dibandingkan pria. Implikasinya,
perempuan lebih sulit untuk memecahkan soal-soal yang melibatkan tingkatan kognitif
yang tinggi.
Universitas Indonesia
5. Penutup
Pada bab terakhir ini akan diuraikan kesimpulan yang merupakan jawaban atas
permasalahan penelitian ini, kemudian saran kepada pihak-pihak yang berkompeten,
serta rekomendasi atas pihak yang terkait dengan penyelenggaraan olimpiade sains
nasional, khususnya dalam hal penyusunan soal olimpiade.
5.1. Kesimpulan
Berdasarkan data penelitian serta pembahasan yang telah diuraikan tadi maka penulis
menarik kesimpulan:
(1). Ada item soal yang mengandung DIF berdasarkan jenis kelamin dari keseluruhan
item soal olimpiade sains bidang biologi SLTP tingkat propinsi tahun 2007 di
DIY. Item tersebut adalah item nomor 5, 13, 29 dan 83 yang mengarah
(menguntungkan) kepada kelompok peserta perempuan, dan item nomor 91 yang
mengarah (menguntungkan) kepada kelompok peserta tes laki-laki.
(2). Faktor internal yang menyebabkan item soal olimpiade sains bidang biologi SLTP
tingkat propinsi tahun 2007 di DIY tersebut terindikasi DIF berdasarkan jenis
kelamin adalah, pertama, untuk item nomor 5, 13, 29 dan 83 materi soal secara
substansial memiliki kelekatan dengan kehidupan perempuan sehingga
menimbulkan bias item yang menguntungkan kelompok peserta tes perempuan.
Kedua, untuk item nomor 91, faktor internal yang menyebabkan bias item adalah
bentuk soal yang melibatkan tingkatan kognitif yang lebih kompleks yaitu
tingkatan analisis. Sementara itu, kemampuan intelektual perempuan relatif lebih
rendah jika dibandingkan laki-laki.Dengan demikian item nomor 91 memiliki bias
yang menguntungkan kelompok peserta tes laki-laki.
5.2. Saran
Agar penelitian ini menjadi lebih bermakna, berikut ini penulis menyampaikan
beberapa saran kepada beberapa pihak .
(1). Kepada panitia penyelenggara Olimpiade Sains Nasional (OSN) Depdiknas
penulis menyarankan, karena berdasarkan hasil analisis ternyata ada sejumlah
item yang kurang bagus. Agar pada OSN selanjutnya menggunakan perangkat
Universitas Indonesia
tes yang lebih baik, maka sebaiknya dilakukan serangkaian uji coba perangkat
soal guna memperoleh soal yang lebih bagus dan item-itemnya terbebas dari
bias.
(2). Kepada para peneliti dan praktisi bidang psikometri penulis menyarankan untuk
meneliti lebih lanjut soal-soal olimpiade, dari berbagai jenjang dan berbagai
bidang baik IPA, Matematika, TI, maupun IPBA.
5.3. Rekomendasi
Setelah melakukan serangkaian prosedur penelitian untuk menelaah soal-soal yang
telah digunakan untuk menyeleksi calon peserta Olimpiade Sains Nasional maka
penulis memberikan rekomendasi kepada panitia penyusunan soal OSN.
(1). Perangkat soal olimpiade sains bidang biologi SLTP memiliki reliabilitas yang
cukup baik yaitu 0.878 , karena itu perangkat soal tersebut layak untuk digunakan
lagi dengan catatan setelah menganulir ke-23 item yang tidak layak (gugur) serta 5
item yang terindikasi DIF.
(2). Hendaknya dalam penyusunan soal-soal OSN tidak lagi menggunakan bentuk-
bentuk soal yang tidak lagi dibenarkan oleh para pakar tes.
Demikianlah rekomendasi dari penulis, semoga memperoleh respon yang positif dan
signifikan.
DAFTAR PUSTAKA
Adam, R.J. & Khoo,S.T. 1996. Quest: The Interactive Analysis System. Melbourne:
The Australian Council for Educational Research
Anastasi, Anne.et.al. 1997. Tes Psikologi. Jakarta: Prenhallindo
Arikunto, Suharsimi.2002. Prosedur Penelitian. Jakarta: Rineka Cipta
Arikunto, Suharsimi.2005. Manajemen Penelitian. Jakarta, Rineka Cipta
Azwar, Saifuddin. 1986. Dasar-dasar Psikometri. Yogyakarta : Pustaka Pelajar
Azwar, Saifuddin. 1992.. Reliabilitas dan Validitas Yogyakarta : Pustaka Pelajar
Universitas Indonesia
Azwar, Saifuddin. 1996. Tes Prestasi. Yogyakarta : Pustaka Pelajar,.
Budiyono, 2005. Perbandingan Metode Mantel-Haenszel, SIBTEST, Regresi Logistik,
dan Perbedaan Peluang dalam Mendeteksi Keberbedaan Fungsi Butir.
Yogyakarta: UNY (disertasi)
Crocker, Linda & Algina, James. 1986. Introduction To Classical & Modern Test
Theory. Florida: Harcourt Brace Javanovich Inc.
Ebel, Robert L. and Frisbie, David A. 1991. Essentials of Educational Measurement.
New Jersey: Prentice Hall.
Hambleton,Ronald K. et.al. 1991. Fundamentals of Item Response Theory.
California.:Sage Publication Inc.
Hayat, Bahrul & Setiadi, Hari. 1998. Mendesain Perangkat Tes Dengan Model Rasch.
Jakarta: Pusat Penelitian dan Pengembangan Sistem Pengujian, Balitbang
Dikbud.
Hayat, Bahrul. et.al. 2004. Manual Item and Test analysis (ITEMAN) Pedoman
Penggunaan ”ITEMAN”. Jakarta: Pusat Penelitian dan Pengembangan
Pendidikan Nasional, Puspendik.
Hulin, Charles L. Et.al. 1983. Item Respon Theory : Application to Psychological
Measurement. Newbury Park, C.A.: Sage Publication Inc.
Kartowagiran, Badrun. 2004. Perbandingan Berbagai Metode Untuk Mendeteksi Bias
Butir. Jogyakarta, Fakultas Psikologi UGM.
Naga, Dali S. 1992. Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta:
Gunadarma,
Nugroho, Tulus. 2003. Keberfungsian Butir Diferensial Perangkat Tes Ujian Akhir
Nasional Matematika SLTP di Kalimantan Timur. Yogkatarta: Tesis UNY
Nurgiyanto, Burhan .1988. Penilaian Dalam Pengajaran Bahasa Dan Sastra.
Yogyakarta: BPFE
Siregar, Nugaan Yulia Wardani. 2005. Faktor Eksternal Bias Jenis Kelamin pada
Butir Tes IPA ”Trends in International Mathematics and Science Study”
(TIMSS). Jakarta: F.Psikologi UI (desertasi)
Surapranata, Sumarna. 2005. Analisis, Validitas, Reliabilitas, dan Interprestasi Hasil
Tes, Bandung :Remaja Rosdakarya.
Suryabrata, Sumadi. 2005. Pengembangan Alat Ukur Psikologis. Yogyakarta: Andi
Offset