Tulisan Ahmad Arief ma'ruf

Universitas Indonesia

Analisis DIF Berbasis Jenis Kelamin Soal Olimpiade Biologi SLTP 2007

Tingkat Propinsi di DIY

(A Gender DIF Analysis of Biology Olympiad Test of SLTP 2007

for Provincial Level in DIY)

Ahmad Arief Ma’ruf

085 292 1111 67

Penelitian ini bertujuan untuk mengetahui ada tidaknya item soal yang mengandung

DIF serta faktor internal yang menyebabkan item soal tersebut terindikasi DIF

berdasarkan jenis kelamin pada soal olimpiade biologi SLTP tingkat provinsi tahun

2007 di DIY .

Sampel penelitian ini adalah soal Olimpiade Biologi SLTP pada seleksi OSN

tingkat provinsi di DIY sebanyak 100 item pilihan ganda. Setelah dilakukan seleksi

item, dilakukan analisis DIF dengan metode perbandingan parameter b serta metode

Mantel-Haenszel melalui output QUEST dengan cara membandingkan antara Chi-

square hitung dengan Chi-square tabel.

Penelitian ini menyimpulkan (1). ada item yang mengandung DIF berdasarkan

jenis kelamin dari keseluruhan item soal Olimpiade Biologi SLTP tingkat provinsi

tahun 2007 di DIY. Item tersebut adalah item nomor 5, 13, 29 dan 83 yang

menguntungkan kelompok peserta tes perempuan, dan item nomor 91 yang

menguntungkan kelompok peserta tes laki-laki, (2). faktor internal yang menyebabkan

item-item tersebut terindikasi DIF berdasarkan jenis kelamin adalah: pertama, untuk

item nomor 5, 13, 29 dan 83 materi soal secara substansial memiliki kelekatan

dengan kehidupan perempuan. Kedua, untuk item nomor 91, faktor internal yang

menyebabkan bias item adalah bentuk soal yang melibatkan tingkatan kognitif yang

lebih kompleks yaitu tingkatan analisis.

Kata kunci : DIF, jenis kelamin, faktor internal

1. Pendahuluan

Latar Belakang

Era globalisasi memberikan inspirasi positif dalam masyarakat intemasional. Sebagai

bagian dari masyarakat internasional, masa depan Indonesia sangat membutuhkan

kemampuan kompetitif di kalangan pelajar untuk bersaing secara sehat dalam

penguasaan ilmu pengetahuan dan teknologi.

Untuk mengantisipasi hal tersebut, Departemen Pendidikan Nasional melalui

Direktorat Jenderal Pendidikan Dasar dan Menengah telah memfasilitasi kegiatan-

kegiatan yang mengarah pada kreativitas siswa dalam bidang ilmu pengetahuan dan

teknologi yaitu dengan lomba-lomba baik yang berskala intemasional maupun tingkat


nasional seperti Olimpiade Sains Nasional (OSN)

Untuk mengukur kemampuan teoretis anak di bidang MIPA (dalam hal ini

bidang biologi) dalam pelaksanaan OSN diperlukan perangkat tes yang berkualitas.

Perangkat soal ini harus benar-benar dapat mengukur apa yang seharusnya diukur dan

memberikan hasil yang dapat dipercaya. Untuk itu, diperlukan alat ukur yang memiliki

tingkat kesulitan yang kurang lebih sepadan dengan kemampuan peserta tes, indeks

daya beda yang tinggi, serta faktor tebakan (guessing) yang seminimal mungkin

sehingga sehingga dapat memberikan informasi pengukuran yang akurat.

Selain hal-hal tersebut di atas, item tes yang baik harus terbebas dari bias. Tes

yang baik tidak memihak pada kelompok tertentu atau golongan tertentu dari peserta

tes. Tes yang baik akan memberikan hasil pengukuran yang sama terhadap peserta tes

yang memiliki kemampuan sama meskipun berasal dari kelompok atau golongan yang

berbeda. Bila tes memberikan hasil yang berbeda maka tes tersebut bias, yang berarti

perangkat tersebut tidak valid secara konstruktif. Sebuah tes yang validitasnya rendah

berartu tes tersebut tidak mampu secara akurat mengukur apa yang seharusnya diukur.

Setelah melakukan pencermatan terhadap skor tes olimpiade biologi SLTP

tingkat propinsi tahun 2007, penulis melihat perbedaan yang ekstrem pada skor rata-

rata dari peserta laki-laki dan perempuan. Perserta perempuan memperoleh skor yang

lebih tinggi daripada peserta laki-laki yang ditunjukkan oleh rerata sebesar 54,66

untuk perempuan dan 48,12 untuk lakilaki. Dari temuan ini penulis menduga adanya

bias item yang menyebabkan peserta dari kelompok jenis kelamin yang berbeda

memberikan respon yang berbeda terhadap suatu item soal.

Oleh karena itu, dalam penelitian ini penulis hendak menelaah apakah item-

item soal biologi dalam olimpiade biologi SLTP tingkat propinsi tahun 2007 di DIY

tersebut mengandung bias yang berbasis jenis kelamin. Selanjutnya, bila ditemui item

yang mengandung bias, akan ditelaah lebih lanjut untuk mengetahui faktor-faktor

internal yang menyebabkan item soal tersebut bias berdasarkan jenis kelamin.

Perumusan Masalah

Berdasarkan latar belakang tersebut, penulis merumuskan permasalahan sebagai

berikut :


(1). Adakah item soal yang mengandung DIF berdasarkan jenis kelamin dari

keseluruhan item soal olimpiade sains bidang biologi SLTP tingkat propinsi tahun

2007 di DIY?

(2). Faktor internal apakah yang menyebabkan item soal olimpiade sains bidang

biologi SLTP tingkat propinsi tahun 2007 di DIY tersebut terindikasi DIF

berdasarkan jenis kelamin?

2. Tinjauan Literatur

Sebagai dasar dalam berpikir dan menganalisis data, berikut ini penulis menguraikan

tinjauan literatur yang relevan, yaitu literatur mengenai tes dan Differential Item

Functioning (DIF).

2.1. Tes

Secara umum berdasarkan bentuknya, tes dapat diklasifikasikan ke dalam: (1) tes

pilihan ganda, tes benar-salah, (3) tes isian/jawaban singkat, (4) tes menjodohkan, dan

(5) tes uraian. Berbagai bentuk tes tersebut mempunyai keunggulan dan kelemahan.

Tes pilihan ganda biasanya terdiri dari sejumlah item soal. Tes yang baik

harus terdiri atas item-item soal yang baik. Pada tes pilihan ganda, item soal yang

baik harus mempunyai tingkat kesulitan yang memadai, daya pembeda yang baik, dan

berfungsinya pengecoh. Oleh karena itu, dalam mengembangkan tes pilihan

ganda harus diperhatikan tingkat kesulitan, daya pembeda, dan berfungsinya

pengecoh.

Tingkat kesulitan menunjuk kepada perbandingan antara banyaknya

peserta tes yang menjawab benar dengan .banyaknya seluruh peserta tes. Daya

pembeda menunjuk kepada selisih proporsi yang menjawab benar pada

kelompok atas dan proporsi yang menjawab benar pada kelompok bawah. Pada

perkembangannya, daya pembeda suatu item didefinisikan sebagai korelasi

antara skor item tersebut dengan skor total (McDonald, 1999 dalam Budiyono,

2005). Berfungsinya pengecoh menunjuk kepada seberapa banyak peserta yang

memilih pengecoh tersebut. Suatu item soal pilihan ganda, dikatakan

memenuhi persyaratan apabila besarnya tingkat kesulitan berkisar antara. 0,15

dan. 0,85 (Oller,1979, dalam Nurgiyantoro, 1988), besarnya daya. pernbeda 0,2 atau


lebih (Fernandes, 1984 dalam Kartowagiran, 2004) , dan pengecoh dipilih oleh paling

sedikit 5% dari seluruh peserta tes.

Untuk mengetahui kualitas suatu alat tes psikologi maka perlu dilakukan uji

psikomerik terhadap alat tes tersebut. Menurut Azwar (1986) para ahli psikometri

telah menetapkan kriteria bagi suatu alat ukur psikologis untuk dapat dinyatakan

sebagai alat ukur yang baik dan mampu memberikan informasi yang tidak

menyesatkan. Kriteria itu antara lain adalah valid, reliabel, norma dan praktis. Dalam

psikometrika, validitas merupakan sesuatu yang esensial.Uji psikometrik tersebur

meliputi uji validitas tes, analisis item dan uji reliabilitas.

2.1. Bias Item dan Differential Item Functioning (DIF)

Istilah Bias Item dan istilah DIF (Differential Item Functioning) sering digunakan

oleh para pakar pengukuran untuk merujuk pada konsep yang sama. Istilah “bias

item” maknanya lebih luas daripada istilah DIF yang semata-mata merupakan

hasil temuan dari olah statist ik, sementara bias telah melibatkan

analisis lanjutan secara kuali tat if dari hasil temuan olah statist ik tadi.

2.3.1. Pengertian Bias dan DIF

Suatu i tem dikatakan bias apabila dua kelompok yang memil iki

kemampuan sama memperoleh hasil yang berbeda pada item tersebut. Secara

matematis bias item dapat dinyatakan dalam bentuk probabilitas (Angoff ,1993

dalam Siregar, 2005). Artinya, orang yang mempunyai kemampuan sama

tetapi tidak memiliki peluang sama untuk memperoleh jawaban benar. Kata

Angoff:

“An item is biassed if equal able (or proficient) individuals, from difference groups,

do not have equal probabilities of answering the item correctly.”

Apabila, suatu item relatif lebih sulit untuk kelompok yang memiliki

budaya dan latar helakang pengalaman tertentu berarti hutir tersebut bias. Bias

item dalam suatu pengukuran mengindikasikan adanya kesalahan sistematik

dalam pengukuran tersebut (Cole, 1997 dalam Siregar, 2005).

Bias item memiliki dua karakter, yaitu (1) arah (direction) dan besaran


(magnitude). Besaran bias dapat diestimasi secara statistik. Ada berbagai

metode untuk mengestimasi besaran tersebut, antara lain: metode pendekatan

klasik, metode chi-square, pendekatan IRT, analisis faktor konfirmatori (AFK),

dan Model persamaan struktutal (MPS).

Bias item dapat terjadi sebanyak jenis pengelompokan yang diinginkan

oleh peneliti. Namun pengelompokkan yang sering dilakukan oleh para peneliti

adalah bias karena budaya dan gender. Item disebut bias budaya apabila perbedaan

kelompok yang akan diteliti atau diperbandingkan ditetapkan berdasarkan aspek

budaya (etnis, ras, dan bahasa yang digunakan).

Selanjutnya, ada dua faktor yang mempengaruhi timbulnya bias item. Secara

garis besar bias item disebabkan oleh (1) item itu sendiri yang dalam

penelitian ini disebut sebagai faktor internal, dan (2) faktor di luar item yang

dalam penelitian ini disebut faktor eksternal. Ketika kajian bias item

difokuskan pada faktor internal berart i fokus deteksi bias item adalah

karakteristik item. Apabila kajian bias item difokuskan pada faktor eksternal

maka fokus deteksi bias item adalah penempuh tes.

Bias item karena faktor internal terjadi apabila kajian difokuskan pada

komponen item, misalnya, bentuk item, mated item, kalimat dan kata yang

digunakan, gambar, petunjuk (clue), dan obyek atau stimulus yang digunakan

dalam item. Dalam penulisan item tes ada dua bentuk item yang lazim

digunakan, yaitu bentuk pilihan ganda dan bentuk uraian. Beberapa peneliti

menemukan item dalam bentuk uraian lebih adil gender ketika digunakan

untuk mengukur prestasi IPA.

Secara. konseptual, DIF dikatakan muncul pada sebuah item soal, jika peserta

tes yang mempunyai kemampuan yang sama pada konstruks yang diukur oleh tes,

tetapi berasal dari kelompok berbeda, mempunyai peluang berbeda dalam menjawab

benar item soal tersebut (Hulin, Drasgow & Paraon, 1993). Untuk menentukan

apakah suatu item soal terindikasi DIF atau tidak, diperlukan indeks DIF, yaitu indeks

yang menunjukkan seberapa kuat indikasi DIF ada pada item itu. Jika tingkat indikasi

DIF tersebut secara praktik dianggap signifikan, dapat dengan mengujinya memakai uji

statistik tertentu atau hanya dengan melihat indeksnya saja, maka item soal yang

bersangkutan dikatakan terdeteksi sebagai item DIF.


Dalam konteks item response theory, terjadi atau tidak terjadinya DIF

pada sebuah item soal terletak kepada fungsi respons item (item response function)

untuk item soal tersebut pada kelompok yang dipersoalkan. Kurva yang

menggambarkan fungsi respons item disebut kurva respons item atau kurva

karakteristik item (item characteristic curve, ICC).

2.3.1. Tipe Differential Item Functioning (DIF)

Terdapat dua jenis DIF, yaitu DIF uniform (konsisten) dan DIF tidak uniform (tidak

konsisten). DIF uniform muncul jika keuntungan salah satu kelompok terhadap

kelompok lainnya terjadi pada setiap level kemampuan, sedangkan DIF tidak uniform

muncul jika keuntungan salah satu kelompok terhadap kelompok lainnya tidak terjadi

pada setiap level kemampuan. Jika dikaitkan dengan pengertian interaksi, yang

popular pada uji statistik analisis variansi, DIF uniform terjadi jika tidak terclapat

interaksi antara tingkat kemampuan peserta tes dan keanggotaan kelompok dan DIF

tidak uniform terjadi jika terdapat interaksi antara tingkat kemampuan peserta tes dan

keanggotaan kelompok (Rogers & Swaminathan, 1993: 105).

DIF uniform terjadi jika kurva karakteristik item untuk suatu item soal berbeda

untuk kelompok yang berbeda dan kedua kurva tersebut tidak saling berpotongan.

Sebaliknya, DIF tidak uniform terjadi jika kurva karakteristik item untuk suatu item

soal berbeda untuk kelompok yang berbeda, namun kedua kurva tersebut

berpotongan.

2.3.2. Metode Pendeteksian DIF

Metode Perbandingan Parameter b yang digunakan untuk mendeteksi DIF item-item

tes merupakan model pengukuran yang didasarkan pada satu parameter yaitu tingkat

kesukaran soal atau Rasch Model. Tingkat kesukaran item soal yang disimbulkan

dengan delta, dimana d1 adalah tingkat kesukaran item soal dari kelompok laki-laki

sedangkan d2 adalah tingkat kesukaran item soal dari

kelompok perempuan. Peserta tes terdiri dari dua kelompok berbeda yaitu kelompok

laki-laki dan perempuan yang menempuh buku tes yang sama, maka deteksi DIF

berdasarkan jenis kelamin laki-laki dan perempuan dapat dihitung.


Untuk menghitung rata-rata skor dan selisih standar deviasi dari dua kelompok

yang berbeda jenis kelamin dapat menggunakan program QUEST. Kriteria untuk

menentukan item soal terindikasi DIF ditinjau dari tingkat

kesukaran soal. Tingkat kesukaran soal kelompok laki-laki (d1 ), tingkat

kesukaran soal kelompok perempuan (d2 ) dari dua kelompok peserta tes,

apabila (1) d1 – d2 >0,50 atau d1 - d2 < -0,50 dan (2) ϰ2 hitung > ϰ2

tabel, atau ϰ2

hitung > 3.841; untuk α= 0.05%, df = 1

Pada tahun 1959, Mantel dan Haenszel menampilkan prosedur untuk suatu

studi pemadanan kelompok, yang oleh Holland dan Thayer dipakai untuk

mendeteksi DIF, yang kemudian terkenal dengan metode Mantel-Haenszel. Metode

ini merupakan metode yang powerful dan digunakan di Educational Testing Service

(ETS) di Amerika Serikat (Dorans & Holland dalam Budiyono (2005).

Penggunaan metode Mantel-Haenszel berdasarkan asumsi-asumsi berikut:

(a) tes hanya mengukur satu dimensi (unidimensi); (b) kemampuan peserta tes

dinyatakan dalam skor total yang diperoleh peserta tes dari seluruh item soal dengan

menganggap setiap item soal mempunyai bobot yang lama; (c) level kemampuan

peserta tes dapat digolongkan ke dalam M kelompok yang berurutan; dan (d) setiap

peserta tes dapat dikelompokkan ke dalam satu dan hanya satu kelompok, yaitu

kelompok acuan atau kelompok fokus.

3. Metode Penelitian

Penelitian kuantitatif yang mengkaji keber-ada-an item soal yang mengandung DIF

berdasarkan jenis kelamin dari keseluruhan item soal olimpiade sains bidang biologi

SLTP tingkat propinsi tahun 2007 ini merupakan penelitian deskriptif. Penelitian ini

termasuk studi kasus, karena keterbatasan wilayah populasi penelitiannya, yaitu di

DIY, meskipun soal olimpiade sains bidang biologi SLTP 2007 tersebut berlaku untuk

seluruh Indonesia.

3.1. Populasi dan Sampel

Populasi adalah keseluruhan subjek penelitian. Populasi penelitian ini adalah soal

olimpiade sains bidang biologi SLTP pada seleksi OSN tingkat propinsi tahun 2007


yang dikembangkan dari kisi-kisi soal yang telah disusun oleh penyelenggara

Olimpiade Sains Nasional Depdiknas.

Sampel penelitian ini adalah soal olimpiade sains bidang biologi SLTP pada

seleksi OSN tingkat propinsi yang dujikan di DIY sebanyak 100 item bentuk pilihan

ganda.

3.2. Metode Pengumpulan Data

Data penelitian ini adalah data sekunder yang berupa lembar jawaban peserta

olimpiade biologi pada olimpiade sains bidang biologi SLTP tingkat propinsi tahun

2007 di propinsi Daerah Istimewa Yogyakarta. Data ini diperoleh dari arsip di Dinas

Pendidikan Propinsi DIY. Lembar jawaban tersebut berisi jawaban pilihan ganda dari

100 item soal.

3.3. Pengolahan dan Analisis Data

Sebelum dilakukan pengolahan data, terlebih dulu dilakukan seleksi item untuk

menganulir item-item yang kurang memenuhi syarat dari segi kualitas. Dengan

demikian data akan valid karena dihasilkan oleh item yang valid pula.

3.3.1. Seleksi Item

Seleksi item terdidi dari dua tahap, yaitu pertama, telaah item yang meliputi telaah

substansi item dan analisis item, dan kedua, pencocokan dengan model.

Setelah telaah substansi item soal, selanjutnya data skor yang telah dienri dari

lembar jawab kemudian diolah dengan menggunakan program ITEMAN untuk

mengetahui karakteristik item secara klasikal. Analisis item item menggunakan

program ITEMAN untuk mengetahui indeks tingkat kesukaran soal, daya pembeda

soal, reliabilitas dan efektivitas distraktor. Dari sinilah dapat diketahui kualitas item

soal, untuk dasar melakukan seleksi item.

Selanjutnya, butir-butir yang lolos seleksi diolah dengan program QOEST.

QUEST menawarkan suatu lingkup analisis Quesioner dan test secara komprehensif

dengan menyediakan suatu analis data dengan mengarah kepada pengembangan yang

terbaru dalam Teori Pengukuran Rasch, seperti halnya bidang prosedur analisis

tradisional. Ini meliputi suatu easy-to-use bahasa kontrol dengan output yang


informatif dan fleksibel. QUEST dapat digunakan untuk meng-konstruk dan mem-

validasi variabel yang berbasis observasi dichotomous dan polychotomous. Skor dan

analisis seperti instrumen test pilihan ganda, Skala Likert, item jawaban singkat, dan

item”kredit paraial”.

Dari output QUEST dapat diketahui perbandingan tingkat kesukaran soal

dengan kemampuan peserta maupun kecocokan dengan model pada masing-masing

item.

3.3.2. Analisis DIF

Dalam penelitian ini, keberadaan DIF pada masing-masing item dideteksi dengan

menggunakan perbandingan parameter b dan dengan metode Mantel-Haenszel yang

keduanya dapat dipetik dari output QUEST. Analisia dilakukan dengan

membandingkan antara Chi-square hitung dengan Chi-square tabel.

Expert judgment dilakukan dengan berkonsultasi kepada guru-guru biologi

SLTP/MTs.

4. Hasil Penelitian dan Pembahasan

Pada bab ini secara berurutan penulis akan mendeskripsikan hasil penelitian terhadap

soal-soal olimpiade sains bidang studi biologi yang digunakan untuk penjaringan

peserta OSN di Surabaya tahun 2007. Selanjutnya penulis akan membahas hasil

penelitian tersebut.

4.1. Hasil Penelitian

Dalam subbab ini akan dipaparkan data hasil penelitian yang meliputi data seleksi

item dan data analisis DIF.

4.1.1. Seleksi Item

Sebelum dikakukan uji statistik terhadap keberadaan DIF dalam suatu item soal,

terlebih dahulu dilakukan seleksi item. Seleksi ini dimaksudkan untuk menganulir

item-item soal yang kualitasnya rendah (tidak layak).

Jenis tes yang digunakan dalam OSN tersebut adalah tes prestasi (achievement

test) Materi soal-soal olimpiade sains bidang studi biologi yang diujikan di DIY ini


meliputi 100 item soal pilihan ganda dengan 4 pilihan (A,B,C,D). Seperti lazimnya

soal-soal biologi, dalam perangkat tes ini digunakan ilustrasi/gambar dalam beberapa

item sebagai bagian integral dari item tersebut. Sayangnya item nomor 85 sampai 100

menggunakan bentuk pilihan ganda berkait yang sudah disarankan untuk tidak

digunakan dalam penyusunan soal.

Secara umum, substansi item-item soal dalam perangkat tes OSN Biologi ini

telah memenuhi kriteria penulisan soal yang baik , hanya ada beberapa item saja yang

secara signifikan menyalahi kriteria tersebut. Item-item tersebut adalah item no

16,17,18, 38,59,87, dan 94.

4.1.1.1. Analisis Item

Analisis item secara empiris dalam penelitian ini menggunakan program ITEMAN

yang mengacu kepada teori tes klasik. Berikut ini adalah skala statistik yang diolah

melalui ITEMAN dari data skor responden yang berjumlah 408 .

Reliabilitas soal ini ditunjukkan dengan Alpha 0.878 yang berarti reliabilitas soal

ini cukup baik. Hal ini sesuai dengan penclapat Ebel (dalam Kartowagiran, 2004)) yang

mengatakan bahwa alat ukur yang memiliki koefisien reliabilitas 0,8 sudah baik Nunnally

(Kartowagiran, 2004) berpenclapat bahwa soal uraian yang memiliki koefisien reliabilitas

0,6 – 0,7 dan untuk soal pilihan ganda yang memiliki koefisien reliabilitas 0,75 – 0,90

sudah dapat dikatakan baik. Feldt dan Brehmman (Kartowagiran, 2004) mengatakan

bahwa suatu instrumen yang memiliki koefisien reliabilitas r xy z0,7 sudah dikatakan

reliabel. Sementara itu tingkat kesukaran item rata-rata sebesar 0.526 sangat bagus

menurut Dawson (Kartowagiran, 2004) item soal yang memiliki tingkat kesukaran 0,25

– 0,75 dikatakan baik.

Rata-rata daya pembeda item-item yang ada dalam soal ini juga termasuk baik,

yaitu 0.362. Fernandes (Kartowagiran, 2004) mengatakan item yang memiliki

daya pembeda lebih besar dari 0,2 adalah baik .

Dari 100 item terdapat 23 item yang dinyatakan gugur atau tidak layak. Item-

item yang gugur tersebut adalah item nomor 6, 8, 10, 15, 19, 25, 32, 38, 39, 45, 55, 59,

60, 68, 70, 74, 78, 80, 87, 88, 89, 94, dan 96. Dari 23 item yang di anulir tersebut

terdapat 5 item yang check the key, yaitu yang justru dijawab benar oleh responden


kelompok rendah. Dari 5 item yang check the key tersebut ternyata terdapat 4 item

yang memang secara substansial tidak bagus, yaitu nomor 38, 59, 87, dan, 94. Berikut

ini kutipan output ITEMAN dari kelima item yang terindikasi check the key tersebut.

4.1.1.2 Pencocokan dengan Model

Suatu item soal dikatakan fit dengan model apabila perolehan angka infit meansquare

item soal tersebut berada pada interval 0,72 sampai 1,33. Dan apabila diperoleh

nilai infit meansquare diluar interval 0,72 dan 1,33 maka item soal tersebut tidak

cocok dengan model. Item soal dikatakan tidak cocok (tidak fit) dengan model, artinya

item soal tersebut berperilaku tidak konsisten dengan apa yang diharapkan oleh model.

Berdasarkan output QUEST, ternyata dari 100 item tidak satu pun yang tidak fit

dengan model, karena nilai infit meansquare berada dalam interval 0,72-1,33.

Ternyata ada kecocokan antara kemampuan peserta dengan tingkat kesulitan soal.

Juga ada kecocokan parameter item dengan model. Oleh karena itu yang menjadi

dasar seleksi item dalam penelitian ini adalah hasil anaisis item secara klasik saja yang

berhasil menganulir 23 item. Dengan demikian jumlah item yang dianalisis lebih

lanjut untuk mengetahui keberadaan DIF hanya 77 item saja.

4.1.2. Analisis DIF

Ada dua macam analisis yang dilakukan dalam menganalisis DIF dalam penelitian ini,

yaitu analisis kuantitatif untuk mendeteksi keber-ada-an DIF dalam suatu item dan

analisis kualitatif guna menelaah lebih lanjut untuk mengetahui mengapa item tersebut

mengandung DIF.

4.1.2.1.Deteksi DIF dengan Model Rasch

Rasch Model yang digunakan untuk mendeteksi DIF dalam suatu item soal merupakan

model pengukuran yang didasarkan pada satu parameter yaitu tingkat kesukaran soal.

Tingkat kesukaran item soal yang disebut dengan delta, dimana delta-1 adalatr tingkat

kesukaran item soal dari kelompok laki-laki sedangkan delta-2 adalatr tingkat

kesukaran item soal dari kelompok perempuan. Peserta tes terdiri dari dua kelompok

berbeda yaitu kelompok laki-laki dan perempuan yang menjawab soal-soal seleksi

olimpiade tingkat propinsi. Kedua kelompok ini mengerjakan soal yang sama. Sebuah


item terindikasi DIF apabila ϰ2 hitung > ϰ2

tabel, atau Chi-SQuare hitung lebih besar

dari 3.841; untuk α= 0.05%, df = 1. Selengkapnya, tersaji pada tabel di bawah ini.

Tabel Hasil Uji Signifikansi Item yang Terindikasi Mengandung DIF

Berdasarkan Model Rasch

No. Item

Delta Adjusted

Delta Difference Chi-SQ Ket. Lk Pr Lk Pr d1-d2 std'ised

item 5 0.29 -1.02 0.29 -1.02 1.3 5.39 29.01 DIF

item 13 -0.03 -0.7 -0.03 -0.7 0.67 2.8 7.83 DIF

item 29 0.98 0.4 0.98 0.4 0.58 2.45 6.01 DIF

item 91 -2 -1.26 -2 -1.26 -0.75 -2.24 5.02 DIF

item 83 -0.61 -1.13 -0.61 -1.13 0.52 2.01 4.05 DIF

4.1.2.2. Deteksi DIF dengan metode Mantel-Haenszel

Dalam pedeteksian DIF dengan metode Mantel-Haenszel pada penelitian ini

digunakan Program QUEST. Sebuah item terindikasi DIF apabila ϰ2 hitung > ϰ2

tabel,

atau MHChi-SQuare suatu lebih besar dari 3.841; untuk α= 0.05%, df = 1.

Tabel Hasil Uji Signifikansi Item yang Terindikasi Mengandung DIF

Berdasarkan Metode Mantel-Haenszel

No.Item

MHAlpha

MHDelta

MH-Chisquare

χ2 –tabel

Keterangan

item 5 0.25 3.26 26.34 3.841 Signifikan

item 13 0.47 1.77 6.91 3.841 Signifikan

item 83 0.47 1.79 6.00 3.841 Signifikan

item 91 2.40 -2.06 5.45 3.841 Signifikan

item 29 0.50 1.63 4.67 3.841 Signifikan

Setelah dilakukan uji keberadaan DIF terhadap 100 item soal olimpiade, ternyata

kedua metode baik Rasch Model maupun metode Mantel-Haenszel ternyata

memberikan hasil yang tidak berbeda. Item yang terdeteksi DIF adalah item 5, 13, 83,

91, dan 29. Dari kelima item yang terdeteksi DIF tersebut hanya satu yang

menguntungkan laki-laki yaitu item 91, sedangkan keempat item lainnya lebih

menguntungkan perempuan.

4.2. Pembahasan


Pada subbab berikut ini akan dibahas satu demi satu item yang terindikasi DIF unruk

mengetahui lebih lanjut mengapa item tersebut mengandung bias. Suatu item bisa

mengandung bias jenis kelamin karena faktor internal dan eksternal. Dalam penelitian

ini, penulis hanya memfokuskan diri pada faktor internal saja.

Iten no. 5 mengandung DIF yang sangat signifikan dengan nilai MHChi-SQ

sebesar 26.34 pada taraf signifikansi 95% dan DF=1. Soal di atas lebih

menguntungkan peserta perempuan karena materi soal sangat berkaitan dengan hal-hal

yang menyangkut diri perempuan yaitu “ciri-ciri sekunder pada wanita remaja”.

Substansi yang diangkat dalam soal ini lekat dengan dunia wanita khususnya remaja.

Tentu saja kelompok peserta perempuan lebih berpeluang untuk menjawab benar. Hal

ini telah terbukti secara statistik. Seperti penelitian McPeek & O’Neill yang dikutip

Siregar (2005) bahwa anak laki-laki di amerika lebih bisa menjawab soal yang

menyangkut olehraga hockey, sementara anak perempuan lebih bisa menjawab soal

yang menyangkut kerajinan tangan.

Agar soal tersebut tidak bias, sebaiknya topik pertanyaan dialihkan kepada ciri-

ciri sekunder perkembangan remaja secara umum tanpa membedakan perempuan atau

laki-laki. Dengan demikian item soal menjadi terbebas dari bias jenis kelamin.

Ternyata kelompok peserta perempuan lebih berpeluang menjawab benar

untuk soal nomor 13 & 29 tersebut karena terbukti soal no. 13 mengandung DIF yang

secara signifikan dengan nilai MHChi-SQ sebesar 6.91 pada taraf signifikansi 95%

dan DF=1. Sedangkan soal no. 29 mengandung DIF yang secara signifikan dengan

nilai MHChi-SQ sebesar 6.00 pada taraf signifikansi 95% dan DF=1.

Kedua soal di atas mengenai tumbuh-tumbuhan. Dunia tumbuh-tumbuhan

merupakan dunia yang akrab dengan perempuan dalam kultur masyarakat Yogyakarta.

Dalam keseharian anak perempuan biasa ditugasi untuk merawat tanaman (berkebun

dan bertaman) di halaman rumah maupun di taman sekolah. Dengan demikian

perempuan lebih menaruh perhatian pada masalah-masalah yang menyangkut tumbuh-

tumbuhan. Sehingga untuk soal yang menyangkut tumbuh-tumbuhan, wanita lebih

unggul.

Dengan merujuk kepada fenomena yang dikutip Siregar (2005) bahwa suatu

item bisa menjadi bias bila ditempuh oleh kelompok laki-laki dan perempuan yang

memiliki perlakuan dan pengalaman kehidupan sehari-hari yang berbeda maka untuk


kasus no. 13 dan 29 di atas internal terjadi karena peserta tes dari kelompok

perempuan dimungkinkan lebih untung karena topik soal tersebut akrab dengan dunia

perempuan dalam kultur Jogja, yaitu dunia tumbuh-tumbuhan.

Soal nomor 83 mengandung DIF yang secara signifikan dengan nilai MHChi-

SQ sebesar 5.45 pada taraf signifikansi 95% dan DF=1. Soal tersebut menguntungkan

peserta tes kelompok perempuan perempuan. Kata kunci penyebab bias pada soal

tersebut adalah “darah”. Perempuan lebih perhatian pada masalah darah, seperti

halnya temuan yang mengatakan bahwa perempuan lebih bisa menjawab benar ketika

diminta membandingkan berat berbagai jenis perhiasan, liontin misalnya (Siregar,

2005).

Boleh jadi, perempuan lebih menaruh perhatian dan minat untuk topik

pelajaran yang menyangkut masalah “darah”. Dalam kehidupan sehari-hari, bagi

perempuan yang sudah menginjak remaja selalu disibukkan oleh masalah darah yaitu

saat datang bulan (menstruasi). Siklus kehidupan yang selalu melibatkan darah

tersebut sangat boleh jadi menyebabkan perempuan memiliki rasa ingin tahu yang

lebih besar daripada laki-laki dalam masalah “darah”.

Soal no. 91 mengandung DIF yang secara signifikan dengan nilai MHChi-SQ

sebesar 4.67 pada taraf signifikansi 95% dan DF=1. Berbeda dengan keempat soal

terdahulu, DIF untuk soal nomor 91 ini mengarah ke kelompok peserta tes laki-laki

dengan nilai delta sebesar -2, sementara perempuan -1,26. Meskipun intensitasnya

tidak sebesar soal no. 5, 13, dan 29, namun soal no. 91 ini secara signifikan

mengandung DIF.

Kasus DIF dalam soal tersebut cukup unik, topik pertanyaan menyangkut

masalah tumbuhan yang pada soal no. 13 dan 29 menguntungkan kelompok peserta

perempuan, tetapi pada soal no. 91 ini justru lebih menguntungkan kelompok peserta

tes laki-laki.

Untuk menjawab soal di atas melibatkan tingkatan kognitif yang tinggi dalam

taksonomi Bloom, yaitu tingkat analisis. Sementara itu, kata Kartini (1980)

kemampuan intelektual wanita lebih rendah jika dibandingkan pria. Implikasinya,

perempuan lebih sulit untuk memecahkan soal-soal yang melibatkan tingkatan kognitif

yang tinggi.


5. Penutup

Pada bab terakhir ini akan diuraikan kesimpulan yang merupakan jawaban atas

permasalahan penelitian ini, kemudian saran kepada pihak-pihak yang berkompeten,

serta rekomendasi atas pihak yang terkait dengan penyelenggaraan olimpiade sains

nasional, khususnya dalam hal penyusunan soal olimpiade.

5.1. Kesimpulan

Berdasarkan data penelitian serta pembahasan yang telah diuraikan tadi maka penulis

menarik kesimpulan:

(1). Ada item soal yang mengandung DIF berdasarkan jenis kelamin dari keseluruhan

item soal olimpiade sains bidang biologi SLTP tingkat propinsi tahun 2007 di

DIY. Item tersebut adalah item nomor 5, 13, 29 dan 83 yang mengarah

(menguntungkan) kepada kelompok peserta perempuan, dan item nomor 91 yang

mengarah (menguntungkan) kepada kelompok peserta tes laki-laki.

(2). Faktor internal yang menyebabkan item soal olimpiade sains bidang biologi SLTP

tingkat propinsi tahun 2007 di DIY tersebut terindikasi DIF berdasarkan jenis

kelamin adalah, pertama, untuk item nomor 5, 13, 29 dan 83 materi soal secara

substansial memiliki kelekatan dengan kehidupan perempuan sehingga

menimbulkan bias item yang menguntungkan kelompok peserta tes perempuan.

Kedua, untuk item nomor 91, faktor internal yang menyebabkan bias item adalah

bentuk soal yang melibatkan tingkatan kognitif yang lebih kompleks yaitu

tingkatan analisis. Sementara itu, kemampuan intelektual perempuan relatif lebih

rendah jika dibandingkan laki-laki.Dengan demikian item nomor 91 memiliki bias

yang menguntungkan kelompok peserta tes laki-laki.

5.2. Saran

Agar penelitian ini menjadi lebih bermakna, berikut ini penulis menyampaikan

beberapa saran kepada beberapa pihak .

(1). Kepada panitia penyelenggara Olimpiade Sains Nasional (OSN) Depdiknas

penulis menyarankan, karena berdasarkan hasil analisis ternyata ada sejumlah

item yang kurang bagus. Agar pada OSN selanjutnya menggunakan perangkat


tes yang lebih baik, maka sebaiknya dilakukan serangkaian uji coba perangkat

soal guna memperoleh soal yang lebih bagus dan item-itemnya terbebas dari

bias.

(2). Kepada para peneliti dan praktisi bidang psikometri penulis menyarankan untuk

meneliti lebih lanjut soal-soal olimpiade, dari berbagai jenjang dan berbagai

bidang baik IPA, Matematika, TI, maupun IPBA.

5.3. Rekomendasi

Setelah melakukan serangkaian prosedur penelitian untuk menelaah soal-soal yang

telah digunakan untuk menyeleksi calon peserta Olimpiade Sains Nasional maka

penulis memberikan rekomendasi kepada panitia penyusunan soal OSN.

(1). Perangkat soal olimpiade sains bidang biologi SLTP memiliki reliabilitas yang

cukup baik yaitu 0.878 , karena itu perangkat soal tersebut layak untuk digunakan

lagi dengan catatan setelah menganulir ke-23 item yang tidak layak (gugur) serta 5

item yang terindikasi DIF.

(2). Hendaknya dalam penyusunan soal-soal OSN tidak lagi menggunakan bentuk-

bentuk soal yang tidak lagi dibenarkan oleh para pakar tes.

Demikianlah rekomendasi dari penulis, semoga memperoleh respon yang positif dan

signifikan.

DAFTAR PUSTAKA

Adam, R.J. & Khoo,S.T. 1996. Quest: The Interactive Analysis System. Melbourne:

The Australian Council for Educational Research

Anastasi, Anne.et.al. 1997. Tes Psikologi. Jakarta: Prenhallindo

Arikunto, Suharsimi.2002. Prosedur Penelitian. Jakarta: Rineka Cipta

Arikunto, Suharsimi.2005. Manajemen Penelitian. Jakarta, Rineka Cipta

Azwar, Saifuddin. 1986. Dasar-dasar Psikometri. Yogyakarta : Pustaka Pelajar

Azwar, Saifuddin. 1992.. Reliabilitas dan Validitas Yogyakarta : Pustaka Pelajar


Azwar, Saifuddin. 1996. Tes Prestasi. Yogyakarta : Pustaka Pelajar,.

Budiyono, 2005. Perbandingan Metode Mantel-Haenszel, SIBTEST, Regresi Logistik,

dan Perbedaan Peluang dalam Mendeteksi Keberbedaan Fungsi Butir.

Yogyakarta: UNY (disertasi)

Crocker, Linda & Algina, James. 1986. Introduction To Classical & Modern Test

Theory. Florida: Harcourt Brace Javanovich Inc.

Ebel, Robert L. and Frisbie, David A. 1991. Essentials of Educational Measurement.

New Jersey: Prentice Hall.

Hambleton,Ronald K. et.al. 1991. Fundamentals of Item Response Theory.

California.:Sage Publication Inc.

Hayat, Bahrul & Setiadi, Hari. 1998. Mendesain Perangkat Tes Dengan Model Rasch.

Jakarta: Pusat Penelitian dan Pengembangan Sistem Pengujian, Balitbang

Dikbud.

Hayat, Bahrul. et.al. 2004. Manual Item and Test analysis (ITEMAN) Pedoman

Penggunaan ”ITEMAN”. Jakarta: Pusat Penelitian dan Pengembangan

Pendidikan Nasional, Puspendik.

Hulin, Charles L. Et.al. 1983. Item Respon Theory : Application to Psychological

Measurement. Newbury Park, C.A.: Sage Publication Inc.

Kartowagiran, Badrun. 2004. Perbandingan Berbagai Metode Untuk Mendeteksi Bias

Butir. Jogyakarta, Fakultas Psikologi UGM.

Naga, Dali S. 1992. Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta:

Gunadarma,

Nugroho, Tulus. 2003. Keberfungsian Butir Diferensial Perangkat Tes Ujian Akhir

Nasional Matematika SLTP di Kalimantan Timur. Yogkatarta: Tesis UNY

Nurgiyanto, Burhan .1988. Penilaian Dalam Pengajaran Bahasa Dan Sastra.

Yogyakarta: BPFE

Siregar, Nugaan Yulia Wardani. 2005. Faktor Eksternal Bias Jenis Kelamin pada

Butir Tes IPA ”Trends in International Mathematics and Science Study”

(TIMSS). Jakarta: F.Psikologi UI (desertasi)

Surapranata, Sumarna. 2005. Analisis, Validitas, Reliabilitas, dan Interprestasi Hasil

Tes, Bandung :Remaja Rosdakarya.

Suryabrata, Sumadi. 2005. Pengembangan Alat Ukur Psikologis. Yogyakarta: Andi

Offset


Zumbo, Bruno D. 1999. A Handbook on The Theory and Method of Differential Item

Functioning (DIF). Columbia: National Defense Headquarters

Tulisan Ahmad Arief ma'ruf

Documents

Transcript of Tulisan Ahmad Arief ma'ruf