VALIDITAS DAN PENGEMBANGAN TES - ADI SETIAWAN | … · PPT file · Web view2016-03-22 ·...

ARI KRISTIAWAN 832015006SELFINA R SUNBANU 832015007DWI HASTUTI 832015008OT BILL WILSON SELAN 832015009

VALIDITAS DAN PENGEMBANGAN TES

PENDAHULUAN Sebagaimana diketahui hampir setiap mahasiswa psikologi, kegunaan tes psikologi

pertama-tama ditentukan oleh reliabilitasnya tetapi kemudian oleh validitasnya validitas tes berarti seberapa jauh tes tersebut mengukur apa yang hendak diukur. Para ahli psikometri telah lama mengakui bahwa validitas adalah karakteristik yang

paling penting dan mendasar dari suatu tes. Validitas tes adalah proses perkembangan yang bermula dari konstruksi tes dan

berlanjut untuk jangka waktu yang tak terbatas. Setelah suatu tes dipublikasikan untuk penggunaan operasional, makna interpretatif skornya akan terus dipertajam, diperhalus, dan diperkaya melalui akumulasi observasi klinis yang bertahap dan melalui proyek-proyek penelitian khusus. Validitas tes adalah sesuatu yang hidup, yaitu tidak mati dan diawetkan ketika tes tersebut dipublikasikan ( Anastasi, 1986).

VALIDITAS

1. DEFINISI VALIDITASValiditas yang dikutip dari sumber yang sangat berpengaruh, Standards for Educational and Psychological Testing ( AERA,APA, & NCME, 1999): sebuah tes dikatakan valid selama kesimpulan yang dibuat berdasarkan tes tersebut tepat, bermakna, dan berguna. Validitas merupakan kesatuan konsep yang ditentukan oleh sejauh mana suatu tes mengukur apa yang hendak diukur. Kesimpulan yang ditarik dari sebuah tes yang valid akan menjadi kesimpulan yang tepat, bermakna, dan berguna. Dalam konteks ini harus terlihat nyata bahwa pada hakikatnya studi empiris manapun yang menghubungkan skor tes dengan lainnya merupakan sumber informasi validitas yang potensial (Anastasi, 1986; Messick, 1995).2. VALIDITAS ISI (CONTENT VALIDITY)Validitas isi ditentukan oleh seberapa jauh soal-soal mampu mencerminkan perilaku yang ingin diukur. Pada dasarnya, isu mengenai validitas isi tidak lebih dari isu mengenai sampling soal-soal tes itu sendiri ( Bausell, 1986). Soal-soal pada tes dapat dilihat sebagai beberapa sampel soal yang dipilih dari seluruh populasi soal yang ada-yang dapat mengukur perilaku yang dikehendaki. Jika soal-soal pada tes telah mewakili populasi soal yang ada, maka dapat dikatakan bahwa tes tersebut telah memiliki validitas isi. Sebagai contoh, ketika seorang peneliti ingin mengembangkan sebuah tes untuk mengukur kemampuan mengeja siswa kelas III SD. Tes tersebut akan memiliki validitas isi yang baik jika soal-soalnya terdiri dari kata-kata dengan tingkat kesulitan berbeda yang diambil secara acak dari seluruh kata-kata yang telah dikuasai siswa kelas III SD.

Validitas isi akan sulit diukur apabila tes tersebut dirancang untuk mengukur trait atau aspek-aspek kepribadian tertentu. Bagaimana seorang pengembang tes dapat melakukan spesifikasi terhadap soal-soal apa saja yang mampu mengukur kecemasan seseorang? Dalam kasus dimana trait yang diukur tidak nyata terlihat. Pengembang tes tidak akan mencoba mengkonstruksi seluruh soal tes yang mungkin dalam tes tersebut. Untuk kasus seperti ini, validitas isi akan diperoleh dengan meminta pertimbangan dari para ahli. Dengan adanya pertimbangan tersebut, pengembang tes dapat menyatakan bahwa, “beberapa ahli telah meninjau spesifikasi domain tes secara seksama dan menurut penilain mereka, soal-soal tes ini telah memiliki validitas isi. Gambar 4.1 akan memperlihatkan contoh lembar penilaian soal yang digunakan untuk menentukan validitas isi dari butir-butir soal tes.

Gambar 4.1

Peninjau : _________________________ Tanggal : __________________________Bacalah spesifikasi domain tes ini dengan seksama. Selanjutnya tentukan seberapa baik setiap soal mencerminkan spesifikasi domain tes. Beri nilai pada masing-masing soal berdasarkan kecocokannya dengan isi yang ditetapkan oleh spesifikasi domain tes. Gunakan skala empat-poin dibawah ini : 1 2 3 4 Tidak relevan agak relevan cukup relevan sangat relevan Sumber : berdasarkan Martuza (1977), Hambleton (1984), Bausell (1986)

GAMBAR 4.1. Contoh lembar penilaian soal para ahli untuk menentukan validitas isi

a. Kuantifikasi validitas isi• Ketika dua orang ahli melakukan evaluasi terhadap soal tes pada skala empat poin yang ditunjukkan dalam Gambar 4.1,

hasil penilaian dari setiap ahli dapat menjadi dua jenis yaitu relevansi lemah ( untuk peringkat 1 atau 2) dan relevansi kuat ( untuk peringkat 3 atau 4). Untuk soal, gabungan dari kedua relevansi tersebut dimasukkan kedalam tabel 2x2 pada Gambar 4.2. sebagai contoh, jika ahli pertama menilai bahwa suatu soal memiliki relevansi yang kuat namun ahli kedua menilai bahwa soal tersebut memiliki relevansi lemah, maka soal itu akan dimasukkan ke dalam sel B. Perhatikan bahwa sel D adalah satu-satunya sel yang menggambarkan kesepakatan valid antara para ahli. Sel-sel lainnya meliputi ketidaksetujuan antar para ahli (B dan C) atau kesepakatan bahwa soal tersebut tidak boleh dilibatkan dalam tes (sel A). Hipotesis untuk tes dengan 100 soal pada Gambar 4.3. Koefisien validitas isi dapat diperoleh melalui rumus berikut ini: Rumus

Sebagai contoh pada tes yang terdiri dari 100 soal, kedua peneliti setuju bahwa 87 soal sangatlah relevan (sel D), sehingga koefisien validitas isinya menjadi 87/( 4+ 4 + 5+ 87) atau 0,87. Jika menggunakan lebih dari dua penelitan prosedur perhitungan ini akan dilengkapi dengan semua kemungkinan kombinasi pasangan penilaian,dan kemudian dicari koefisien rata-ratanya. Suatu koefisien validitas isi hanya merupakan satu bagian dari bukti dalam evaluasi tes. Validitas tes tidak dapat dibangun hanya oleh koefisien tesebut.

Gambar 4.2 dan Gambar 4.3 JURI AHLI #1

Relevansi Relevansi Lemah Kuat (Peringkat (Peringkat Soal 1 atau 2) soal 3 atau 4)

JURI AHLI

#2

Relavansi lemah

(peringkat soal 1 atau 2)

A B

Relavansi lemah


C D

Gambar 4.2 Model Kesepakatan Interrater untuk Validitas Isi

JURI AHLI #1

Relevansi Relevansi Lemah Kuat (Peringkat (Peringkat Soal 1 atau 2) soal 3 atau 4)

JURI AHLI

#2

Relavansi lemah


4 soal 5 soal

Relavansi lemah


4 soal 87 soal

Gambar 4.3 Contoh Hipotesis Model Kesepakatan Validitas Isi untuk Tes 100 Soal

b. Validitas muka (Face validity)Sebuah tes dapat dikatakan memiliki validitas muka jika tes tersebut terlihat valid oleh pembuat, penguji, dan terutama peserta tes. Isu validitas muka tidak lain adalah isu mengenai penerimaan sosial dan bukanlah bentuk teknis validitas dalam kategori yang sama seperti validitas isi, validitas terkait kriteria, maupun validitas konstruk (Nevo, 1985).

3. VALIDITAS TERKAIT KRITERIA (CRITERION-RELATED VALIDITY)• Sebuah tes dikatakan memiliki validitas terkait kriteria apabila tes tersebut mampu mengistimasi kinerja yang ingin diukur dari

peserta tes secara efektif. • Dalam hal ini variabel yang paling utama adalah hal yang ingin diukur dalam tes itu sendiri yang disebut dengan kriteria.• Validitas terkait kriteria memiliki dua pendekatan bukti validitas yang berbeda. Pendekatan Validitas konkuren ( concurrent

validity) ukuran kriteria diperoleh pada waktu yang kira-kira bersamaan dengan skor tes. Sebagai contoh, diagnosis psikiatri pasien saat ini merupakan ukuran kriteria yang tepat untuk menyediakan bukti validitas tes psikodiagnostik tertulis. Pada Validitas Prediktif ( predictive validity) ukuran kriteria diperoleh pada masa mendatang biasanya beberapa bulan atau tahun setelah skor tes tersebut didapatkan, seperti IPK mahasiswa yang diprediksikan oleh tes masuk perguruan tinggi.

a. Karakterisik kriteria yang baik• Kriteria merupakan ukuran hasil dari sebuah tes yang divalidasi. Sebuah kriteria haruslah bersifat reliabel jika ingin dijadikan

indeks yang berguna bagi apa yang diukur suatu tes. Suatu kriteria yang tidak reliabel akan sulit diprediksi, terlepas dari manfaat tes itu sendiri.

• Ukuran untuk kriteria juga harus sesuai untuk tes dalam pegawasan tertentu. Buku The Standards for Educational and Psychological Testing (AERA, APA, & NCME, 1985) memasukkan point penting berikut ini sebagai standar terpisah: semua ukuran kriteria harus dideskripsikan secara akurat, dan logika untuk memilih kriteria-kriteria tersebut sebagai kriteria yang relevan harus dibuat eksplisit.

b. Validitas konkuren• Dalam studi validitas konkuren skor tes dan informasi kriteria diperoleh secara simultan. Bukti konkuren validitas tes biasanya

diperlukan untuk tes prestasi, tes untuk memperoleh sertifikasi atau lisensi, dan tes diagnosis klinis. • Sebagai contoh tes prestasi aritmatika mengandung validitas konkuren jika skornya dapat digunakan untuk memprediksi posisi

siswa saat ini dalam kursus matematika, dengan akurasi yang cukup baik. Suatu tes kepribadian akan memiliki validitas konkuren jika klasifikasi diagnostik yang dihasilkan paling tidak sesuai dengan opini dari para psikiater atau psikolog klinis.

c. Validitas prediktif• Dalam studi validasi prediktif, skor tes digunakan untuk mengestimasi ukuran –ukuran hasil yang diperoleh pada masa

mendatang. • Secara khusus validitas prediktif relevan untuk ujian masuk dan tes kepegawaian. Ketika tes digunakan untuk tujuan prediksi

maka suatu persamaan regresi perlu dikembangkan. Persamaan regresi menggambarkan kedudukan garis lurus terbaik untuk mengestimasi kriteria tes.

Ghiselli, dkk (1981) memberikan contoh sederhana tentang regresi dalam melakukan prediksi, yang akan dijabarkan berikut ini. Anggaplah kita mencoba memprediksikan keberhasilan pekerjaan Y ( yang dievaluasi oleh supervisor pada skala 7 poin yang berkisar dari kinerja yang paling buruk hungga kinerja yang paling baik) dari skor tes penerimaan pegawai X (dengan 0 sebagai nilai terendah dan 100 sebagai nilai tertinggi). Persamaan regresi:

Rumus Y = 0,07X +0,2

• Mungkin bisa menggambarkan kedudukan garis lurus sehingga menghasilkan prediksi yang paling akurat. Untuk individu yang mendapatkan skor 55 pada tes 4,05; yaitu 0,07 (55) + 0,2. Skor tes sebesar 33 memunculkan suatu tingkat prediksi kinerja 2,52, yaitu 0,07(33)+ 0,2. Prediksi tambahan dilakukan dengan prosedur serupa.

d. Koefisien validitas dan standard error of estimate• Hubungan antara skor tes dan ukuran kriteria dapat dinyatakan dalam beberapa cara. Pendekatan yang paling terkenal mungkin

adalah menghitung korelasi antara tes dan kriteria (rxy). Dalam konteks ini korelasi yang dihasilkan dikenal sebagai koefisien validitas. Semakin tinggi koefisien validitas (rxy),semakin akurat tes tersebut dalam memprediksikan kriteria.

Standard Error of Estimate(SEest)adalah marjin error atau kesalahan yang diharapkan pada skor kriteria yang diprediksi. Error of estimate diperoleh dari rumus berikut ini :

Rumus SEest = SDy

e. Teori keputusan untuk tes psikologi• Pendukung teori keputusan (decision theory) menekankan bahwa tujuan dari tes psikologi bukanlah pengukuran itu sendiri

melainkan manfaat pengukuran ketika membuat keputusan. • Jika hasil dari tes seleksi menunjukkan dikotomi sederhana yaitu: “ diprediksi akan berhasil” dan “diprediksi akan gagal”, maka

hasil pengukuran kriteria serupa dapat dibagi menjadi dua kategori yaitu “telah berhasil” dan “telah gagal”. Berdasarkan perspektif tersebut, setiap studi validitas prediktif akan menghasilkan matrik 2x2 seperti yang terlihat pada Gambar 4.4. Beberapa kombinasi dari hasil aktual dan hasil yang diprediksi menunujukkan kesesuaian lebih ketimbang yang lainnya. jika sebuah tes memiliki validitas prediktif yang baik, maka sebagian besar orang yang diprediksikan berhasil akan bebar-benar berhasil dan sebagian besar orang yang diprediksikan gagal akan benar-benar gagal. Hal ini merupakan contoh prediksi yang benar dan mendukung validitas instrumen seleksi. Hasil dari kedua sel tersebut disebut dengan hits karena telah memberikan prediksi yang benar.

Akan tetapi tidak ada tes seleksi yang merupakan prediktor yang sempurna sehingga dua jenis hasil yang berbeda dengan sebelumnya juga mungkin saja muncul. Dalam kenyataanya, beberapa orang yang diprediksi berhasil justru mengalami kegagalan. Kasus demikian disebut false positives sedangkan beberapa orang yang diprediksi gagal pada kenyataannya justru berhasil. Kasus demikian disebut dengan false negatives. False positives dan false negatives merupakan misses (ketidaktepatan) karena tes telah memberikan prediksi yang tidak akurat pada kedua kasus tersebut. False positives dan false negatives merupakan sesuatu yang tidak dapat dihindari pada penggunaan tes-tes seleksi.

Gambar4.4

Para pendukung teori keputusan membuat dua asumsi dasar mengenai penggunaan tes-tes seleksi:1. Nilai dari berbagai hasil yang muncul pada institusi dapat ekspresikan dalam skala utilitas yang umum. Sebagai contoh, ketika

menggunakan tes minat untuk menyeleksi calon salesman, perusahaan akan mendapatkan keuntunagn dari calon pegawai itu jika karyawan bersangkutan berhasil dalam pekerjaannnya. Disisi lain perusahaan akan mengalami kerugian ketika beberapa dari pegawai tersebut tidak dapat menjual produk perusahaan dengan baik bahkan untuk menyokong gaji mereka sendiri. Biaya yang dibutuhkan untuk prosedur seleksi juga harus dipertimbangkan dalam skala utilitas.

2. Pada keputusan seleksi institusional, strategi yang paling efektif adalah memaksimalkan keuntunagn rata-rata. Sebagai contoh, rasio seleksi manakala yang mampu menghasilkan keuntunagn rata-rata terbaik pada skala utilitas? Oleh karena itu, maksimalisasi merupakan prinsip keputusan yang fundamental.

KINERJA PADA UKURAN KINERJA

Berhasil Gagal

PREDIKSI

TES SELEKSI

Akan Berhasil

Prediksi benar (hit)

False (positive (miss)

Akan Gagal

False Negative

(miss)

Prediksi benar (hit)

4. VALIDITAS KONSTRUK• Istilah konstruk mengacu pada sifat atau kualitas abstrak dan teoritis yang membedakan individu (Messick, 1995).• Beberapa contoh konstruk adalah kemampuan kepemimpinan, depresi, dan inteligensi. Pada contoh tersebut dapat dilihat

bahwa konstruk memang disimpulkan dari perilaku namun konstruk adalah sesuatu yang lebih dari sekedar perilaku itu sendiri. Secara umum, konstruk secara teori memiliki beberapa bentuk eksistensi independen namun tetap berpengaruh terhadap perilaku manusia. Tes yang dirancang untuk mengukur sebuah konstruk harus mengistimasi keberadaan karakteristik terkait yang disimpulkan berdasarkan sampel perilaku yang terbatas. Validitas konstruk mengacu pada kesesuaian dari penarikan kesimpulan tentang konstruk terkait.

• Setiap konstruk psikologis memiliki dua karakteristik umum: Tidak ada satupun kesimpulan eksternal yang dapat memvalidasi keberadaan konstruk terkait yaitu konstruk tersebut tidak dapat

didefinisikan secara operasional (Cronbach & Meehl, 1955) Akan tetapi, sekumpulan dugaan yang berhubungan satu sama lain bisa didapatkan dari teori yang ada tentang konstruk

tersebut (AERA, APA, & NCME, 1985).

• Validitas konstruk berhubungan dengan tes-tes psikologis yang mengukur atribut-atribut psikologi yang kompleks, terdiri dari berbagai aspek, dan berdasarkan pada teori seperti psychopathy, inteligensi, kepemimpinan, dan sebagainya. Poin penting yang harus dipahami pada validitas konstruk adalah: “tidak ada kriteria atau keseluruhan konten atau isi yang memadai secara keseluruhan untuk mendefinisikan kualitas yang diukur” (Cronbach & Meehl, 1955). Oleh karena itu demonstrasi validitas konstruk selalu bergantung pada program penelitian dengan menggunakan berbagai prosedur. Untuk mengevaluasi validitas konstruk suatu tes, harus mengumpulkan bukti-bukti dari berbagai sumber.

Validitas konstruk dapat ditemukan secara praktris dalam berbagai studi empiris yang menguji skor-skor tes pada kelompok subjek yang sesuai. Sebagian besar studi validitas konstruk meliputi satu dari kategori-kategori berikut

5. PENDEKATAN DALAM VALIDITAS KONSTRUK

Analisis untuk menentukan apakah soal-soal tes atau subtes bersifat homogen sehingga mengukur konstruk yang sama

Studi tentang perubahan yang disebabkan oleh perkembangan untuk menentukan apakah studi tersebut konsisten dengan teori konstruk

Penelitian untuk memastikan apakah perbedaan kelompok pada skor-skor tes konsisten dengan teori

Analisis untuk menentukan apakah dampak intervensi terhadap skor-skor tes konsisten dengan teori

Korelasi tes dengan tes dan pengukuran lainnya yang terkait maupun yang tidak terkait

Analisis faktor skor tes dalam kaitannya dengan sumber informasi lainnya

Analisis untuk menentukan apakah skor tes menyediakan klasifikasi peserta tes yang akurat.

Sumber-sumber bukti validitas konstruk tersebut secara lebih rinci

a. Homogenitas TesTujuan dari pengembangan tes adalah untuk memilih soal-soal yang akan membentuk skala yang homogen.

b. Perubahan Berbasis Perkembangan yang Sesuai.Terdapat berbagai konstruk yang diasumsikan bisa menunjukan perubahan yang terjadi dimasa kanak-kanak awal hingga dewasa atau bahkan lebih tua lagi. Konstruk pengetahuan kosa kata dapat dijadikan contoh dari perubahan perkembangan. Sejak awal penciptaan tes inteligensi pada pergeseran abad telah diketahui bahwa pengetahuan kosa kata meningkat secara signifikan dari awal masa kanak-kanak hingga ahir masa kanak-kanak.

c. Perbedaan Kelompok yang Konsisten dengan Teori (Theory-Consistent Group Differences)

Salah satu cara yang dapat digunakan untuk menunjang validitas instrument baru adalah menunjukan bahwa, secara rata-rata, orang yang dengan latar belakang dan karakteristik yang berbeda mendapatkan skor tes yang konsisten dengan teori. Secara spesifik, orang yang diperkirakan tinggi pada konstruk yang diukur oleh tes harus mendapatkan skor yang tinggi, sementara orang yang diperkirakan rendah pada konstruk tersebut harus mendapatkan skor yang juga rendah.

Tabel 4.1 menyajikan skor rata-rata SIS untuk 12 kelompok subjek yang telah ditetapkan. individu yang memiliki kecenderungan pada perhatian sosial yang tinggi (seperti biarawati) mendapatkan skor rata-rata tertinggi pada (Social Interest Scale SIS) , sedangkan skor terendah diperkirakan akan didapatkan oleh individu yang perhatiannya terpusat pada dirinya sendiri (seperti model) dan pada pribadi yang sepenuhnya anti sosial (seperti narapidana)

d. Dampak Intervensi yang Konsisten dengan Teori (Theory-Consistent Intervention Effects) Pendekatan lain untuk validitas konstruk adalah menunjukan bahwa skor tes berubah dalam arah

dan jumlah yang sesuai sebagai reaksi terhadap intervensi yang terencana maupun yang tidak terencana.

Sebagai contoh, skor yang lebih tua pada tes kemampuan orientasi spasial harus meningkat setelah subjek tersebut menerima pelatihan kognitif yang dirancang secara kusus untuk meningkatkan kemampuan orientasi spasial mereka.

e. Validasi Konvergen dan Diskriminan• Validitas konvergen ditunjukan ketika suatu tes memilki korelasi yang tinggi dengan variable

atau tes lainnya yang saling berbagi konstruk yang tumpang tindih.• Validitas diskriminan ditunjukan ketika suatu tes tidak berhubungan dengan variabel atau tes

yang berbeda dengannya. F . Analisis Faktor• Analisis faktor merupakan teknik statistik khusus yang sering digunakan untuk menginvestigasi

validitas konstruk. • Tujuan dari analisis faktor adalah untuk menemukan kumpulan dimensi yang lebih kecil, yang disebut faktor,

yang dapat menjelaskan deretan interkkorelasi antar tes. Pendekatan yang biasanya digunakan dalam analisis faktor adalah melakukan serangkaian tes pada ratusan subjek dan kemudian mengkalkulasi matriks korelasi skor-skor pada pasangan tes yang ada.

g. Ketepatan Klasifikasi Berbagai tes telah digunakan dalam penyaringan untuk mengidentifikasi para peserta

tes yang memenuhi (atau tidak memenuhi) kriteria diagnostik tertentu. Bagi instrumen-instrumen semacam itu, klasifikasi yang akurat merupakan indeks validitas yang penting.

Mari kita gunakan Mini-Mental State Examination (MMSE), sebuah tes penyaringan (screening test) fungsi kognitif singkat.

Tujuan utama MMSE adalah mengidentifikasi individu-individu usia lanjut yang mungkin sedang mengalami dementia. Dementia adalah istilah yang menunjukan adanya penurunan fungsi kognitif yang signifikan dan hilangnya memori yang disebabkan oleh proses penyakit seperti Alzheimer’s Diseasase atau akumulasi dari stroke ringan.

6. PERIHAL EKSTRAVALIDITAS DAN PERLUASAN CAKUPAN VALIDITAS TESBagian ini dimulai dengan ulasan mengenai perihal ekstravaliditas, termasuk efek samping dan akibat yang tidak diharapkan dari tes. Dengan mengetahui pentingnya domain ekstravaliditas, para psikolog menegaskan bahwa keputusan untuk mengunakan suatu tes melibatkan pertimbangan sosial, legal, dan politis dan jauh melampaui pertanyaan tradisional tentang validitas teknis. Meskipun tes itu dikatakan valid, tidak bias, dan adil, pengunaan tes tersebut juga akan ditentukan oleh beberapa pertimbangan lainnya. Cole dan Moss (1998) menjabarkan faktor-faktor berikut ini. Apa tujuan dari pengunaan tes tersebut? Sejauh mana tujuan itu dicapai dengan tindakan yang dilakukan? Apa saja efek samping atau akibat yang tidak diinginkan yang mungkin muncul dalam

pengunaan tes? Alternative apakah yang mungkin dapat menyediakan tujuan yang sama? Kita akan membahas perihal ekstravaliditas yang paling menonjol dan memahami

bagaimana hal tersebut memperluas cakupan validitas tes.

a. Efek Samping Tes yang Tidak DikehendakiHasil yang diharapkan dari pengunaan tes psikologis bukankah satu-satunya

konsekuensi. Berbagai efek samping dari sebuah tes juga sering terjadi.

Cole dan Mosess(1998) mengutip contoh tes psikologi untuk menentukan kelayakan bagi pendidikan khusus. Meskipun tes tersebut diharapkan dapat membantu pembelajaran para siswa, proses identifikasi siswa yang layak menerima pendidikan kusus tersebut ternyata memberikan banyak efek samping, yaitu:

Anak yang masuk kedalam daftar identifikasi akan merasa bodoh dan berbeda dari teman-temannya

Anak-anak lain yang tidak teridentifikasi akan mengolok-ngolok anak yang teridentifikasi

Guru akan mengangap anak tersebut tidak layak diperhatikanProses tersebut akan menghasilkan segregasi kelas berdasarkan rasa tau kelas

sosial.

b. Cakupan Validitas Tes yang Semakin MeluasBeberapa ahli psikologi memperkenalkan definisi validitas yang lebih

luas dan bermanfaat, yang menegaskan bahwa sebuah tes dapat dikatakan valid jika memenuhi tujuan dari pengunaannya (Cronbach 1988; Messick, 1995).

Sebagai contoh, tes prestasi membaca akan digunakan untuk mengidentifikasi siswa yang harus mengikuti kelas perbaikan. Menurut perspektif fungsionalis, tes dapat dikatakan valid dan pengunaannya sesuai jika siswa yang terpilih untuk mengikuti kelas perbaikan benar-benar mendapatkan manfaat akademis dari aplikasi tes tersebut.

c. Utilitas: Horizon Terakhir dari ValiditasWood, Garb dan Nezworski (2007) mengemukakan bahwa utilitas tes dapat dirangkum dalam pertanyaan, “ apakah pengunaan tes ini akan menghasilkan pasien yang lebih baik atau pelayanan yang lebih efisien?”

B. KONSTRUKSI TES(Penyusunan Alat Ukur)

Tes yg valid tidak muncul begitu saja. Validitas muncul dari perlahan-lahan dari proses yg berkembang dan berevolusi scr valid sejak awal pembuatannya

1. MENDEFINISIKAN TES Dalam menyusun alat tes, perlu diketahui gagasan yang jelas mengenai apa yang

hendak diukur, dan perbedaan tes tersebut dengan instrumen yg lain. Tujuan utama dari penyusunan alat tes harus jelas dan memiliki dasar yg kuat

Contoh Alat Ukur inteligensi untuk anak-anak Kaufmaan Assesment Batterry For Children (K-ABC) Mengukur intelegensi berdasarkan basis teoritis dan penelitian Memisahkan pengetahuan faktual yang dapat dipelajari dari kemampuan memecahkan masalah

yang tidak biasa dihadapi individu Menghasilkan skor yang dapat digunakan untuk intervensi edukasional Mencakup tugas-tugas baru Mudah dijalankan dan memiliki sistem penilaian yang objektif Peka terhadap kebutuhan yang berbeda dari anak-anak prasekolah, kelompok minoritas, dan

anak-anak dengan kebutuhan tertentu.

2. MEMILIH METODE SCALLING

Tujuan penting dalam pengukuran psikologis adalah memberikan skala pada respons tes sehingga kita dapat menilai tinggi rendahnya karakteristik tes yang dimiliki para peserta tes

seperangkat lambang atau angka yang dibuat sehingga melalui aturan lambang atau angka itu dapat ditempatkan posisi individu atau perilaku yang menjadi sasaran penggunaan skala

KATEGORI SKALA

KATEGORI SKALA

Skala Nominal (Skala yg digunakan utk memberikan kategori/penamaan saja)

Skala Ordinal (menunjukkan bentuk peringkat (ranking) atau urutan)

Skala Interval (menyediakan informasi mengenai urutan serta untuk mengukur perbedaan antar urutan). Misalnya seseorang diminta untuk menilai dari skala 1 sampai 100 mengenai seberapa besar keinginannya untuk memiliki jenis mobil tertentu. penilaiannya adalah sebagai berikut : Cadillac, 90; Chevrolet, 70; Volkswagen , 60; Hyundai, 50.

Skala Rasio (memiliki seluruh karakteristik skala interval serta memiliki konsep titik nol mutlak yang menunjukkan kekosongan )

3. MEMILIH METODE SCALING

1. Expert Rankings (peringkat oleh ahli)Misalnya utk menyusun alat ukur koma, diperlukan beberapa neurolog untuk

mengamati perilaku koma. Setelah data diagnostik perilaku terkumpul, pembuat alat tes dapat mengurutkan peringkat pada indikator perilaku mulai dari koma sangat parah hingga orientasi dasar.

2. Method of Equal-Appearing Intervals (Metode Interval Kemunculan-Setara)Metode penskalaan dengan menyusun satu set pernyataan mengenai variabel yg akan diukur. Dengan mengikutsertakan partisipan, pernyataan2 tersebut kemudian akan dikategorikan dari yg paling favorable dan unfavorableContoh : Developing an AIDS attitude scale people get AIDS by engaging in immoral behavior you can get AIDS from toilet seats AIDS is the wrath of God anybody with AIDS is either gay or a junkie AIDS is an epidemic that affects us all people with AIDS are bad people with AIDS are real people AIDS is a cure, not a disease you can get AIDS from heterosexual sex people with AIDS are like my parents you can get AIDS from public toilets women don’t get AIDS

Method of Equal-Appearing Intervals (Metode Interval Kemunculan-Setara)

METODE SCALING ABSOLUT (METHOD OF ABSOLUTE SCALING) ME

Prosedur mendapatkan derajat kesulitan soal yang absolut berdasarkan hasil tes peserta dengan kelompok yang usianya berbeda.

Seperangkat soal tes yang serupa dijalankan pada dua atau lebih kelompok usia yang berbeda.

Kesukaran relatif soal-soal antara dua kelompok usia manapun akan menjadi dasar untuk membuat serangkaian perbandingan yang menghubungkan seluruh soal pada seluruh kelompok usia.

SKALA LIKERT

Skala Likert menyediakan 5 jenis respon yang berurutan pada kontinum setuju hingga tidak setuju, bagi peserta tes.

metode pengukuran sikap (attitude) yang banyak digunakan dalam penelitian sosial karena kesederhanaannya.

SKALA GUTTMAN

Skala Guttman dihasilkan dengan cara memilih soal-soal atau pernyataan yang akan dibuat menjadi sebuah urutan, yang selanjutnya akan dipilih oleh responden.

METODE EMPIRICAL KEYING (METODE JAWABAN EMPIRIS)

Skala pengukuran berdasarkan pertimbangan empiris tanpa adanya teori

pemilihan soal-soal pada skala sepenuhnya berdasarkan seberapa baik soal-soal tersebut dapat membedakan kelompok kriteria dari sampel normatif

Misalnya : Sekelompok orang/peserta yang mengalami depresi mayor dan telah melewati tahap seleksi ketat, dikumpulkan untuk menjawab sederetan pertanyaan benar atau salah.

KONSTRUKSI SKALA RASIONAL (KONSISTENSI INTERNAL)

Biasa digunakan dalam pengembangan Inventori kepribadian/self- report. Pendekatan ini disebut jg dng konsistensi internal

Contoh :

B (benar)dan S (salah) pada setiap pernyataan menunjukkan arahan atau pilihan yang ditentukan secara rasional (keyed direction) untuk potensi kepemimpinan

4. MEMBUAT SOAL TES

Membutuhkan kreativitas dari pengembang tes Terdapat beberapa pertanyaan yang harus direnungkan sebelum membuat soal tes: Apakah soal pada tes akan bersifat homogen?

Pada pengukuran yang luas homogenitas dan variabilitas soal tes ditentukan oleh bagaimana pengembang tes mendefinisikan instrument baru tersebut. Contoh sebuah tes inteligensi umum yang dapat digunakan diberbagai budaya. Instrumen tersebut dapat terdiri dari soal yang bervariasi. Pengembang tes dapat memasukkan soal baru yang sama asingnya bagi seluruh peserta tes.

Tingkat kesulitan apakah yang harus dicakup oleh soal-soal tersebut?Derajat kesulitan soal harus disesuaikan agar tes tersebut dapat membedakan para peserta tes dari kedua ekstrim (yang mampu dan tidak mampu mengerjakan tes). Ceiling effect (dampak batas atas) muncul ketika sejumlah besar peserta tes mendapat skor sempurna, sedangkan Floor effect (dampak batas bawah) muncul ketika sejumlah besar pesera tes mendapatkan nilai rendah yang mendekati batas bawah skala. Sebagai contoh tes WAIS-R memiliki floor effect yang cukup serius sehingga tes tersebut gagal membedakan retardasi mental sedang, parah, dan sangat parah.

Berapa banyak initial soals (soal-soal uji coba) yang akan dibuat tersebut? Proses kognitif dan domain soal seperti apakah yang diberlakukan? Soal tes seperti apakah yang akan digunakan?

Sebelum pengembang tes dimulai pembuat soal biasanya melakukan:

Tabel spesifikasiTabel spesifikasi menyajikan informasi dan tugas kognitif yang akan diukur dari para peserta tes. Tabel spesifikasi yang paling umum adalah matriks content-by-process yang memaparkan data mengenai jumlah pasti soal yang mengukur content areas (area isi) yang bersangkutan dan jumlah pasti soal yang akan mengukur proses kognitif yang berbeda Contoh tes prestasi sains bagi siswa SMA. Tes tersebut harus mencakup berbagai contenct areas yang berbeda dan harus dapat mengukur berbagai proses kognitif yang terdiri dari mengingat kembali memori sedehana hingga penalaran untuk menarik kesimpulan. Dengan adanya tabel spesifikasi dalam tahap penulisan soal, pengembang tes dapat memastikan bahwa tes yang dihasilkan memiliki topik pembahasan yang seimbang dan menyediakan seluruh kemampuan kognitif yang diinginkanTabel. 4.5

Proses Area isi Pengetahua

fakual Kompetensi informasi

Penarikan kesimpulan

Astronomi 8 3 3 Botani 6 7 2 Kimia 10 5 4 Geologi 10 5 2 Fisika Zoologi

8 8

5 5

6 3

Total 50 30 20

aPengetahuan faktual : soal dijawab berdasarkan pengenalan fakta dasar sederhanabkompetensi informasi : soal membutuhkan penggunaan informasi yang disediakan dalam teks tertuliscpenarikan kesimpulan : soal dapat dijawab dengan membuat deduksi atau menarik kesimpulan

Format soalDisini formal soal disesuaikan dengan subjek yang akan di ukur. Dapat dipilih format soal dalam bentuk multiple choice, esay, benar-salah dan sebagainya.

5. MENGUJI SOAL-SOAL TESTujuan analisis soal adalah menetapkan soal ujicoba yang harus dipertahankan, direvisi, dan dihilangkan. Banyak prosedur statistik yang tersedia untuk analisis soal, diantaranya: indeks kesulitan soal dapat digunakan untuk mengidentifikasi soal yang harus direvisi atau dihilangkan. Misalnya

satu soal memiliki indeks kesulitan hampir 0,0 yang berarti hampir semua peserta tes menjawab soal tersebut dengan salah. Soal ini tidaklah produktif karena tidak menyediakan informasi tentang perbedaan di antara para peserta, sehingga soal harus direvisi atau dibuang. Hal tersebut serupa dengan soal yang indeks kesulitannya berada disekitar 1,0 dimana hampir semua subjek memberikan jawaban yang benar.

indeks reliabilitas soal dimana instrument soal bersifat homogen. Cara sederhana untuk menentukan apakah soal tes berhubungan dengan soal lainnya pada tes yang sama adalah mencari korelasi antara skor soal tersebut dengan skor total pada tes. Guna mengkorelasikan dua jenis skor yang berbeda ini dibutuhkan prosedur statistik khusus yang disebut koefisien korelasi poin-biserial. Rumus koefisien korelasi ini serupa dengan Pearson. Indeks reliabilitas soal merupakan korelasi dari skor total dan deviasi standar.

Indeks validitas soal yakni metode psikometrik yang sangat berguna untuk mengidentifikasi seberapa berguna soal-soal tes tersebut nantinya. Dengan menghitung indeks validitas untuk setiap soal ujicoba, pengembang tes dapat mengidentifikasi soal yang tidak efektif, membuang atau merevisinya, sehingga menghasilkan instrumen yang efektif untuk digunakan. Langkah dalam indeks validitas sama pada indeks reliabilitas yakni menggunakkan poin biserial

Kurva karakteristik soal (item Characteristic Curve=ICC) merupakan grafik yang menunjukkan hubungan antara peluang respons yang benar dan posisi peserta pada trait yang diukur oleh tes.

Gambar 4.8 item Characteristic Curve=ICC

Probabilitas respons benar

Tingkat Kemampuan

Gambar 4.8 beberapa kurva karakteristik soal sampel

Keterangan: Terlihat pada kurva a, Normal ogive menunjukkan distribusi normal yang digambarkan

dalam bentuk kumulatif. Bentuk ICC yang diinginkan tergantung pada tujuan dari tes itu sendiri. Para pendukung psikometri akan lebih menyukai soal tes yang membentuk normal ogive, karena kurva ini akan memudahkan mereka untuk melakukan deduksi matematika mengenai trait yang diukur

kurva b, akan lebih efektif untuk menyeleksi peserta tes dengan tingkatan trait yang tinggi. ICC terutama bermanfaat untuk mengidentifikasi soal yang berfungsi secara berbeda bagi subkelompok peserta tes

Sedangkan kurva c berfungsi secara berbeda bagi kelompok perempuan dan laki-laki

Indeks diskriminasi soal yakni indeks statistik mengenai seberapa efisien sebuah soal mendiskripsikan atau membedakan peserta tes yang mendapatkan nilai tinggi dan nilai rendah pada keseluruhan tes. Indeks diskriminasi soal untuk sebuah soal tes dapat dihitung dengan rumus berilkut:

d=(U-L)/Ndimana U adalah jumlah peserta tes pada batas atas yang menjawab soal dengan benar. L adalah jumlah peserta tes pada batas bawah yang menjawab soal dengan benar, N adalah banyaknya peserta pada batas atas serta batas bawah. Contoh: ujicoba tes prestasi dengan format pilihan ganda dan telah mengujicobakan pada sampel 400 siswa SMA. Setelah menghitung skor total setiap subjek kemudian pengembang tes menemukan 25% nilai tertinggi dan 25 % nilai terendah dari sampel. Karena terdapat 100 siswa pada setiap kelompok (25% dari 400), maka nilai N menjadi 100. Kemudian pengembang tes akan menentukan jumlah siswa yang berada pada batas atas dan batas bawah yang mampu menjawab dengan benar. Pada soal pertama terdapat 49 siswa pada batas atas yang mampu menjawab dengan benar, sementara 23 siswa pada batas bawah mampu menjawab dengan benar.Perhitungan soal diatas ini menggunakan rumus d= (U-L)/N jadi d= ( 49-23)/100 atau 0,26. Indeks deskriminasi soal dapat dilihat pada Tabel.4.7

Tabel 4.7 Indeks Diskriminasi Soal untuk Enam Soal Hipotesis

Soal U L (U-L)/N Komentar 1 2 3 4 5 6

49 79 52

100 20 0

23 19 52 0

80 100

0,26 0,60 0,00 1,00 -0,60 -1,00

Soal yang sangat baik dengan kesulitan tinggi Soal yang sangat baik tetapo jarang dicapai Soal yang buruk yang perlu direvisi Soal yang ideal tetapi tidak pernah dicapai Soal yang buruk dan harus dieliminasi Soal paling buruk yang pernah ada secara teoritis

6. MEREVISI TES

Hampir tidak ada tes yang sempurna. Tes yang direvisi ini cenderung memiliki soal dengan daya deskriminasi tinggi yang memiliki reliabilitas dan akurasi prediktif yang lebih baik. Langkah selanjutnya dalam pengembangan tes adalah mengumpulkan data-data baru dari sampel ujicoba kedua. Jika hasil ujicoba menunjukan bahwa tes hanya tinggal memerlukan sedikit perubahan, pengembang tes dapat mengambil keputusan bahwa tes itu sudah memuaskan dan siap untuk cross-validational (validasi silang). Validitas silang mengacu pada praktik penggunaan persamaan regresi ( yang digunakan

sebelumnya) pada sampel baru untuk menentukan apakah tes tersebut memprediksi kriteria seperti ketika memprediksikannya pada sampel terdahulu.

Penyusutan validitas berupa temuan umum pada penelitian validitas silang adalah prediksi tes terhadap kriteria sampel baru ternyata tidak seakurat sampel ujicoba terdahulu. Contoh: preditor biografis atas potensi penjualan, dalam analisis berdasarkan sampel yang digunakan untuk pengembangan tes, tes prediktor yang didasarkan secara biologis berkorelasi 0,6 namun ketika tes ini di uji cobakan pada sampel baru siswa yang juga mempelajari real estate, korelasi menurun menjadi 0,4 yang menunujukkan adanya penyusutan validitas.

7. MEMPUBLIKASI TES

Pembuatan materi tes harus sesuai dengan pengguna tes jika tes tersebut ingin diterima oleh para psikolog dan pendidik. Sebagai contoh: jika instruksi pelaksanaan tes dapat dirangkum pada formulir tes, penguji dapat meletakkan panduan tes didekatnya sambil mengatur tugas untuk peserta tes. Tambahan lainnya yang dapat diberikan pada kemasan tes psikologi adalah stand-up ring binder, yang menampilkan pertanyaan tes pada sisi yang menghadap peserta tes dan sisi lainnya yang menghadap penguji sehingga penguji dapat memberikan instruksi pelaksanaan tes

Manual teknis dan manual untuk pengguna, dimana manual tes harus mampu menyampaikan informasi kepada berbagai kelompok dengan latar belakang dan pelatihan yang berbeda yang terdiri dari spesialis tes. Manual tes digunakan untuk berbagai tujuan dan pada akhirnya manual tes harus memberikan data tentang reliabilitas dan validitas yang esensial ketimbang meminta pengguna tes untuk melihat sumber lain.

VALIDITAS DAN PENGEMBANGAN TES - ADI SETIAWAN | … · PPT file · Web view2016-03-22 ·...

Documents

Transcript of VALIDITAS DAN PENGEMBANGAN TES - ADI SETIAWAN | … · PPT file · Web view2016-03-22 ·...