Rangkuman Buku (Validitas)

27
Nama : Tedy Tarudin NIM : 1000684 Jurusan : Pendidikan Teknologi Agroindustri Mata Kuliah : Evaluasi Pembelajaran Rangkuman Buku Judul Buku : Analisis, Validitas, Realibilitas, dan Interpretasi Hasil Tes Pengarang : Dr. Sumarna Surapranata Penerbit : Rosda BAB 1 Analisis Soal Analisis soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal. Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif dan analisis kuantitatif. Analisis kualitatif sering pula dinamakan sebagai validitas logis yang dilakukan sebelum soal digunakan untuk melihat berfungsi tidaknya sebuah soal. Analisis soal secara kuantitatif sering pula dinamakan sebagai validitas empiris yang dilakukan untuk melihat lebih berfungsi tidaknya sebuah soal, setelah soal di ujicobakan kepada sampel yang representatif. Dalam bab ini akan diuraikan tentang kedua cara analisis soal tersebut. A. Analisis Kualitatif Analisis kualitatif sering disebut juga sebagai validitas logis yaitu berupa penelaahan yang dimaksudkan untuk menganalisis soal ditinjau dari segi teknis, isi, dan editorial. Analisis secara teknis dimaksudkan sebagai penelaahan soal berdasarkan prinsip-prinsip pengukuran dan format penulisan soal. Analisis secara isi dimaksudkan penelaahan khusus yang berkaitan dengan kelayakan pengetahuan yang ditanyakan. Analisis secara editorial dimaksudkan sebagai penelaahan yang khususnya berkaitan dengan keseluruhan 1

Transcript of Rangkuman Buku (Validitas)

Page 1: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Rangkuman Buku

Judul Buku : Analisis, Validitas, Realibilitas, dan Interpretasi Hasil Tes

Pengarang : Dr. Sumarna Surapranata

Penerbit : Rosda

BAB 1 Analisis Soal

Analisis soal dilakukan untuk mengetahui berfungsi tidaknya sebuah soal. Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif dan analisis kuantitatif. Analisis kualitatif sering pula dinamakan sebagai validitas logis yang dilakukan sebelum soal digunakan untuk melihat berfungsi tidaknya sebuah soal. Analisis soal secara kuantitatif sering pula dinamakan sebagai validitas empiris yang dilakukan untuk melihat lebih berfungsi tidaknya sebuah soal, setelah soal di ujicobakan kepada sampel yang representatif. Dalam bab ini akan diuraikan tentang kedua cara analisis soal tersebut.

A. Analisis Kualitatif

Analisis kualitatif sering disebut juga sebagai validitas logis yaitu berupa penelaahan yang dimaksudkan untuk menganalisis soal ditinjau dari segi teknis, isi, dan editorial. Analisis secara teknis dimaksudkan sebagai penelaahan soal berdasarkan prinsip-prinsip pengukuran dan format penulisan soal. Analisis secara isi dimaksudkan penelaahan khusus yang berkaitan dengan kelayakan pengetahuan yang ditanyakan. Analisis secara editorial dimaksudkan sebagai penelaahan yang khususnya berkaitan dengan keseluruhan format dan keajegan editorial dari soal yang satu ke soal yang lainnya.

Analisis kualitatif lainnya dapat juga dikategorikan dari segi materi, konstruksi, dan bahasa. Analisis materi dimaksudkan sebagai penelaahan yang berkaitan dengan substansi keilmuan yang ditanyakan dalam soal serta tingkat kemampuan yang sesuai dengan soal. Analisis konstruksi dimaksudkan sebagai sebagai penelaahan yang umumnya berkaitan dengan teknik penulisan soal. Analisis bahasa dimaksudkan sebagai penelaahan soal yang berkaitan dengan penggunaan bahasa Indonesia yang baik dan benar menurut EYD. Melalui analisis kualitatif dapat diketahui berfungsi tidaknya sebuah soal.

Analisis kualitatif dilakukan biasanya oleh beberapa orang yang berasal dari rumpun keahlian yang sama ditambah ahli konstruksi soal dan ahli bahasa. Apabila ahli konstruksi ataupun ahli bahasa tidak ada, beberapa ahli yang berasal dari rumpun yang sama juga cukup memadai. Namun demikian, ahli dari rumpun yang sama ini harus memenuhi beberapa kriteria lain (1) menguasai materi yang

1

Page 2: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

diujikan, (2) menguasai teknik penulisan soal, dan (3) menguasai bahasa Indonesia yang baik dan benar.

B. Analisis Kuantitatif

Analisis soal secara kuantitatif menekankan pada analisis karakteristik internal tes melalui data yang telah diperoleh secara empiris. Karakteristik internal secara kuantitatif dimaksudkan meliputi parameter soal tingkat kesukaran, daya pembeda, dan reliabilitas. Khusus soal-soal pilihan ganda, dua tambahan parameter yaitu dilihat dari peluang untuk menebak atau menjawab soal benar dan berfungsi tidaknya pilihan jawaban, yaitu penyebaran semua alternatif jawaban dari subjek-subjek yang di tes. Salah satu tujuan dilakukannya analisis adalah untuk meningkatkan kualitas soal, yaitu apakah suatu soal (1) dapat diterima karena telah didukung oleh data statistik yang memadai, (2) diperbaiki, karen terbukti teerdapat beberapa kelemahan, atau bahkan (3) tidak digunakan sama sekali karena terbukti secara empiris tidak berfungsi sama sekali.

C. Tingkat Kesukaran

Sangatlah penting untuk melihat tingkat kesukaran soal dalam rangka menyediakan berbagai macam alat diagnostik kesulitan belajar peserta didik ataupun dalam rangka meningkatkan penilaian berbasis kelas. Sebagian orang terkadang memiliki pengertian yang salah terhadap tingkat kesukaran.

Secara umum, menurut teori klasik, tingkat kesukaran dapat dinyatakan malalui beberapa cara di antaranya (1) proporsi menajwab benar, (2) skala kesukaran linear, (3) indeks davis, dan (4) skala bivariat. Proporsi jawaban benar (p), yaitu jumlah peserta tes yang menjawab benar pada butir soal yang dianalisis dibandingkan dengan jumlah peserta tes seluruhnya merupakan tingkat kesukaran yang paling umum digunkan. Persamaan yang digunakan untuk menentukan tingkat kesukaran dengan proporsi menjawab benar adalah :

Keterangan : P = proporsi menjawab benar atau tingakt kesukaran ∑m = banyaknya peserta tes yang menjawab benarSm = skor minimumN = Jumlah peserta tes

Tingkat kesukaran (p) sebenarnya merupakan nilai rata-rata dari kelompok peserta tes. Oleh karena itu tingkat kesukaran (p) sebenarnya adalah rata-rata dari suatu distribusi skor kelompok dari suatu soal (Crocker dan Algina, 1986). Paling

2

Page 3: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

tidak ada dua ciri tingkat kesukaran. Pertama, tingkat kesukaran (p) merupakan ukuran soal, tidak menunjukkan karakteristik soal. Tingkat kesukaran dalam hal ini didefinisikan sebagai frekuensi relatif terhadap pengambil tes. Kedua, tingkat kesukaran merupakan karakteristik soal itu sendiri maupun pengambil tes.

Pengaruh Tingkat Kesukaran Pada Skor

Idealnya, tingkat kesukaran soal sesuai dengan kemampuan peserta tes sehingga diperoleh informasi yang antara lain dapat digunakan sebagai alat perbaikan atau peningkatan program pembelajaran. Ketika kita mengembangkan soal, seharusnya tingkat kesukaran meningkat dari soal-soal yang mudah sampai pada soal-soal yang sukar sesuai dengan pola yang dikemukakan oleh Guttman (1950).

Tingkat kesukaran biasanya dibedakan menjadi tiga kategori seperti pada tabel 1.1. soal yang memiliki p < 0,3 biasanya disebut sebagai soal nilai sukar. Soal yang memiliki p < 0,7 biasanya disebut sebagai soal mudah. Soal yang memiliki p antara 0,3 sampai 0,7 biasanya disebut sebagai soal yang sedang.

Nilai p Kategori

P < 0,3 Sukar

0,3 ≤ p ≤ 0,7 Sedang

P > 0,7 Mudah

Salah satu asumsi dasar yang digunakan dalam pengukuran adalah perbedaan individu secara sistematis pada konstruk atau isi yang diukur oleh soal. Tes dapat menunjukkan perbedaan individu ini. Ketika tidak satupun peserta tes dapat menjawab benar suatu soal.

Ketika kita membandingkan skor dua orang peserta tes, kita akan langsung tertuju pada siapa yang memiliki skor yang lebih tinggi, dan seberapa jauh perbedaan skor kedua peserta tes tersebut.

Tingkat kesukaran akan berpengaruh pada variabilitas skor dan ketepatan membedakan antara kelompok peserta tes. Pengaruh dari tingkat kesukaran pada varian skor tes sangat diragukan ketika p sangat ekstrem (0 atau 1). Ketika seluruh soal sangat sukar, maka skor total tentunya akan rendah. Sebaliknya, ketika seluruh soal sangat mudah, tentunya skor total akan tinggi. Dengan demikian, skor total akan sedikit berpengaruh pada variailitas. Variabilitas akan maksimum ketika p = 0,5. Skor akan lebih bervariasi ketika semua p terletak pada sekitar 0,5. Ketika tes dirancang untuk mengukur intelegensi misalnya, maka p berkisar antara sangat sukar maupun sangat mudah. Dalam kebanyakan rancangan tes, tingkat kesukaran

3

Page 4: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

sekitar 0,5 merupakan yang optimum. Untuk penggunaan di kelas, biasanya sebagian pendidikan menggunakan tes yang sedang, yaitu p antara 0,3 sampai dengan 0,7.

D. Daya Pembeda

Salah satu tujuan analisis kuantitatif soal adalah untuk menentukan dapat tidaknya suatu soal membedakan kelompok dalam aspek yang diukur sesuai dengan perbedaan yang ada dalam kelompok itu. Indeks yang digunakan dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemempuan rendah adalah indeks daya pembeda. Indeks daya pembeda soal-soal yang ditetapkan dari selisih proporsi yang menjawab dari masing-masing kelompok. Indeks ini menunjukkan kesesuaian antara fungsi soal dengan fungsi tes secara keseluruhan. Dengan demikian validitas soal ini sama dengan daya pembeda soal yaitu daya dalam membedakan antara peserta tes yang berkemampuan tinggi dengan peserta tes yang berkemampuan rendah.

Angka yang menunjukkan besarnya daya pembeda berkisar antara -1 sampai dengan +1. Tanda negatif menunjukkan bahwa peserta tes yang kemampuannya rendah dapat menjawab benar sedangkan peserta tes yang kemampuan tinggi menjawab salah. Dengan demikian soal yang indeks daya pembedanya negatif menunjukkan terbaliknya kualitas peserta tes.

Indeks daya pembeda dihitung atas dasar pembagian kelompok menjadi dua bagian, yaitu kelompok atas yang merupakan kelompok peserta tes yang berkemampuan tinggi dengan kelompok bawah yaitu kelompok peserta tes yang berkemampuan rendah. Kemampuan tinggi ditunjukkan dengan perolehan skor yang tinggi dan kemampuan rendah ditunjukkan dengan perolehan skor yang rendah.

Indeks daya pembeda didefinisikan sebagai selisih antara proporsi jawaban benar pada kelompok bawah (Crocker dan algina, 1986). Pembagian kelompok ini dapat dilakukan dengan berbagai macam metode bergantung pada keperluannya. Menurut Kelley (1939), Crocker, dan Algina (1986) yang paling stabil dan sensitive serta paling banyak digunakan adalah dengan menentukan 27% kelompok atas dan 27% kelompok bawah.

1. Hubungan Antara Tingkat Kesukaran Dan Daya Pembeda

Tingkat kesukaran berpengaruh langsung pada daya pembeda soal. Jika setiap orang memilih benar jawaban (p = 1), atau jika setiap orang menjawab soal (p = 0), maka soal tidak dapat digunakan untuk membedakan kemampuan peserta tes.

2. Daya Pembeda Soal Pilihan Ganda

4

Page 5: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Bagaimana menentukan daya pembeda sola pilhan ganda? Daya pembeda ditentukan dengan melihat kelompok atas dan melihat kelompok bawah berdasarkan skor total. Untuk memudahkan skor yang di dapat diurutkan dari peserta tes yang memperoleh skor tinggi ke peserta tes yang memperoleh skor rendah.

Daya pembeda menurut indeks daya pembeda dapat dicari dengan menggunakan persamaan :

Keterangan :D = daya pembeda (validitas)JKa = jumlah peserta tes yang menjawab benar pada kelompok atasJKb = jumlah peserta tes yang menjawab benar pada kelompok bawahnKa = jumlah peserta tes pada kelompok atasnKb = jumlah peserta tes pada kelompok bawah

3. Hubungan Antara Daya Pembeda Dengan Alternatif Jawaban

Untuk menghitung distribusi jawaban dan daya pembeda setiap alternatif jawaban dapat dilakukan dengan setiap point jawaban diberi alternatif jawabannya.

4. Daya Pembeda Soal Uraian

Bagaimana cara menentukan daya pembeda soal uraian? Langkah yang dilakukan untuk menghitung daya pembeda soal uraian sama seperti apa yang dilakukan pada soal pilihan ganda. Urutkan seluruh peserta tes berdasarkan perolehan skor total dari yang tinggi ke perolehan skor yang rendah. Bagilah seluruh peserta tes menjadi 27% kelompok atas, yaitu kelompok yang memiliki skor total tinggi dan 27% kelompok bawah, yaitu kelompok peserta tes yang memperoleh skor rendah.

5. Alternatif Jawaban

Apabila dilihat strukturnya tes bentuk pilihan ganda terdiri atas dua bagian yaitu pokok soal atau stem yang berisi permasalahan yang akan ditanyakan dan sejumlah kemungkinan jawaban atau option. Kemungkinan jawaban itu dibagi dua kunci jawaban dan pengecoh. Dari sekian banyak alternatif jawaban hanya

5

Page 6: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

terdapat satu yang benar atau yang paling benar yang dinamakan kunci jawaban, sedangkan kemungkinan jawaban yang tidak benar dinamakan pengecoh.

Pengecoh berfungsi sebagai pengidentifikasi peserta tes yang berkemampuan tinggi. Pengecoh dikatakan berfungsi efektif apabila banyak dipilih oleh peserta tes yang berasal dari kelompok bawah, sebaliknya apabila pengecoh itu banyak dipilih oleh peserta yang berasal dari kelompok atas, maka pengecoh yang tidak berfungsi akan mengakibatkan rendahnya tingkat kesukaran.

Suatu pengecoh dapat dikatakan berfungsi baik jika paling sedikit dipilih oleh 5% peserta tes. Apabila pengecoh dipilih secara merata, maka termasuk pengecoh yang sangat baik. Apabila pengecoh lebih banyak dipilih oleh peserta tes dari kelompok atas dibandingkan dengan kelompok bawah, maka termasuk pengecoh yang menyesatkan.

Salah satu tujuan analisis soal adalah untuk mengetahui tentang distribusi jawaban subjek dalam alternatif jawaban yang tersedia. Melalui distribusi jawaban penyebaran jawaban ini dapat diketahui (1) banyaknya peserta tes yang jawabannya betul, (2) pengecoh yang bagi peserta tes terlalu menyolok kesalahannya sehingga tidak ada yang memilih, (3) pengecoh yang menyesatkan dan (4) pengecoh yang mempunyai daya tarik bagi peserta tes yang kurang pandai.

E. Soal yang Bias

Soal yang bias atau differensial item functioning (DIF) adalah soal yang membedakan kelompok. DIF muncul ketika dua kelompok seperti kelompok jenis kelamin, suku, atau kelompok usia memiliki peluang yang berbeda dalam menjawab soal. Kadang-kadang DIF muncul karena perbedaan pengetahuan, kemampuan, atau keterampilan. Bila hal ini terjadi, maka soal dikatakan telah bias terhadap kelompok tertentu. DIF terkadang merusak hasil penelitian dan sangat tidak adil membedakan kelompok berdasarkan hasil atau nilai yang diperoleh peserta tes. Untuk menjamin agar tes adil untuk semua kelompok, salah satunya adalah para pengembang tes ataupun pelaksana tes harus benar-benar memperhatikan prosedur yang tepat, menggunakan bahasa yang baik, dan tata letak yang bagus.

F. Kriteria Pemilihan Soal

Setelah perhitungan statistik berupa tingkat kesukaran, daya pembeda, dan distribusi jawaban untuk setiap soal selesai, maka langkah selanjutnya adalah pemilihan soal. Hasil analisis soal pada umumnya dibedakan menjadi tiga kategori, yaitu diterima tanpa perbaikan, diterima dengan perbaikan, dan ditolak atau dibuang untuk tidak digunakan. Dalam pemilihan soal berdasarkan teori klasik ini biasanya diperhitungkan tiga parameter soal yaitu tingkat kesukaran (p), daya pembeda atau validitas soal, dan distribusi jawaban.

6

Page 7: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Berdasarkan aturan Nitko (1983) tersebut di atas, soal yang diterima adalah soal yang terletak pada rentang tingkat kesukaran.

Tabel 1.2 kriteria pemilihan soal pilihan ganda

Kriteria Koefisien Keputusan

Tingkat Kesukaran 0.3 s.d 0,70 Diterima

0,10 s.d 0,29 atau

0,70 s.d 0,90

Direvisi

< 0,10 dan > 0,90 Ditolak

Daya Pembeda > 0,3 Diterima

0,10 s.d 0,29 Direvisi

< 0,10 Ditolak

Proporsi Jawaban > 0,05

BAB 2 Validitas

Dua prinsip dasara permasalahan dalam penilaian adalah menentukan apakah sebuah tes telah mengukur apakah sebuah tes telah tepat digunakan untuk membuat suatu keputusan tentang pengambil tes.

Diskusi tentang penilaian berbasis kelas senantiasa berkaitan dengan validitsa dan reliabilitas. Reliabilitas berkaitan dengan sejauhmana tes yang diberikan ajeg dari waktu ke waktu. Artinya reliabilitas berkaitan dengan keajegan suatu tes. Suatu tes dikatakan ajeg “apabila” dari waktu ke waktu menghasilakan skor yang sama atau relatif sama.

Validitas adalah suatu konsep yang berkaitan dengan sejauhmana tes telah mengukur apa yang seharusnya diukur. Validitas sebuah tes selalu dibedakan menjadi dua macam yaitu validitas logis dan validitas empiris. Validitas logis sama dengan analisis kualitatif terhadap sebuah soal, yaitu untuk menentukan berfungsi tidaknya suatu soal berdasarkan kriteria yang telah ditentukan, yagn dalam hal ini adalah kriteria materi, konstruksi, dan bahasa.

Validitas tes perlu ditentukan untuk mengetahui kualitas dalam kaitannya dengan mengukur hal yang seharusnya diukur. Menurut Anasti (1988) validias adalah suatu tindakan yang menyatakan bahwa suatu alat ukur telah sesuai dengan

7

Page 8: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

apa yang diukur. Sedangkan Gronlund (1985) mengatakan bahwa validitas berkaitan dengan hasil suatu alat ukur, menunjukkan tingkatan, dan bersifat khusus sesuai dengan tujuan pengukuran yang akan dilakukan.

A. Bentuk Validitas

Pada tahun 1954, misalnya The American Psycological Association (APA) melalui Technical Recommendation for Psycological Test and Diagnostic Techniques mengusulkan empat pendekatan yang sering dinamakan empat muka validitas (four face of validity) yang digunakan untuk menentukan validitas yaitu:

1. Validitas isi (content validity)

Validitas isi ( content validity) sering pula dinamakan validitas kurikulum yang mengandung arti bahwa suatu alat ukur dipandang valid apabila sesuai dengan isi kurikulum yang hendak diukur.

Salah satu cara yang digunakan untuk menentukan caliditas adalah dengan mengkaji isi tes itu. Dengan demikian, menurut Guion (1977), validitas isi sangat bergantung kepada dua hal yaitu tes itu sendiri dan proses yang mempengaruhi dalam merespon tes.

Dalam dunia pendidikan, sebuah tes dikatakan memiliki isi apabila mengukur sesuai dengan domain dan tujuan khusus tertentu yang sama dengan isipelajaran yang telah diberikan di kelas.

Sebagian ahli yang berpendapat bahwa tidak ada satupun pendekatan statistik yang dapat digunakan untuk menentukan validitas isi suatu tes. Prosesdur yang dapat digunakan antara lain:

1) Mendefinisikan domain yang hendak diukur

2) Menentukan domain yang akan diukur oleh masing-masing soal

3) Membandingkan masing-masing soal dengan domain yang sudah diterapkan

2. Validitas konstruk (construct validity)

Konstruk (construct) adalah suatu yang berkaitan dengan fenomena dan objek abstrak, tetapi gejalanya dapat diamati dan diukur.

Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok dengan konstruksi teoritik dimana tes itu dibuat. Dengan kata lain sebuah tes dikatakan memiliki validitas apabila soal-soalnya mengukur setiap aspek berpikir seperti yang diuraikan dalam standar kompetensi, kompetensi dasar, maupun indikator yang terdapat dalam kurikulum.

8

Page 9: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Konstruksi yang dimaksud pada validitas ini bukanlah merupakan konstruksi seperti bangunan atau susunan, tetapi merupakan psikologis yang berkaitan dengan aspek-aspek ingatan, pemahaman, aplikasi, analisis, sintesis, dan evaluasi.

3. Validitas prediktif (predictive validity)

Predictive validity menunjukkan kepada hubungan antara tes skor yang diperoleh peserta tes dengan keadaan yang akan terjadi di waktu yang akan datang. Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan untuk memprediksikan apa yang akan terjadi di masa yang akan datang.

4. Validitas konkuren (concurent validity)

Validitas concurent atau validity ada sekarang menunjukkan pada hubungan antara tes skor dengan yang dicapai dengan keadaan sekarang. Validitas ini dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki concurent validity apabila hasilnya sesuai dengan pengalaman.

B. Mengukur Validitas

Dalam situasi yang sangat sederhana untuk menentukan valid tidaknya penggaris yang kita buat adalah dengan membawanya ke pusat standarisasi alat ukur. Di pusat alat standarisasi alat ukur terssebut penggaris yang kita buat akan ditera dan dibandingkan dengan meteran standar. Strategi ini tentunya tidak akan berlaku dalam menentukan validitas tes. Untuk menenutkan apakah tes yang digunakan untuk mengukur introvent, intelegensi, kemampuan membaca, kemampuan matematika, atau kemampuan fisika misalnya, tidak ada satupun lembaga standarisasi tes yang dapat membandingkan tes yang dibuat tersebut.

Salah satu cara untuk menentukan validitas alat ukur adalah dengan menggunakan korelasi Product Moment dengna simpangan yang dikemukakan

oleh Person seperti berikut:

rxy : koefisien korelasi antara variabel x dan variabel y, dua variabel lain yang dikorelasikan ( dan )

: jumlah perkalian antara x dan y

9

Page 10: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

x2 : kuadrat dari x

y2 : kuadrat dari y

C. Validitas Soal

Angka yang menunjukkan besarnya validitas soal disebut indeks validitas soal yang besarnya berkisar antara -1 sampai dengan +1. Tanda negatif menunjukkan bahwa peserta tes yang kemampuannya rendah dapat menjawab benar sedangkan peserta yang kemampuannya tinggi menjawab salah. Dengan demikian soal yang validitasnya negatif menunjukkan terbaliknya kualitas peserta tes. Setiap soal dapat dipandang sebagai bagian yang terpisah dengan sebuah tes. Sebuah soal juga mungkin dapat membedakan kelompok peserta tes secara baik.

Jika tes atau soal mengukur hal yang sama, dapat diharapkan bahwa setiap peserta tes yang mampu dapat menjawab soal dengan benar, dan peserta tes yang tidak mampu akan menjawab salah. Dengan kata lain, soal-soal tersebut membedakan antara peserta tes yang mampu dengan peserta tes yang tidak mampu. Dalam bagian ini akan dibahas berbagai teknik menentukan indeks validitas.

Terdapat berbagai cara yang digunakan untuk menentukan validitas diantaranya dengan menggunakan 1). Indeks diskriminasi, 2). Indeks korelasi, 3). Indeks keselarasan. Indeks diskriminasi telah dibahas secara mendalam. Teknik korelasi terdiri atas 1). Teknik point biserial, 2). Teknik phi, 3). Teknik biserial, dan 4). Teknik tetrachoric. Sebagaimana alat ukur lainnya, korelasi didalam validitas soal memiliki predikator dan kriterium. Predikator dalam validitas soal adalah skor soal sedangkan kriteriumnya adalah skor total tes.

Korelasi biserial maupun korelasi point biserial adalah korelasi product moment yang diterapkan pada data, dimana variabel-variabel yang dikorelasikan sifatnya masing-masing berbeda satu sama lain. Variabel skor total atau sub total peserta bersifat kontinum atau nondikotomi yang diperoleh dari jumlah jawaban yang benar. Korelasi beserial ditentukan dengan menggunakan persamaan :

rbis : koefisien korelasi biserial

Mp : rerata skor pada tes dari peserta tes memiliki jawaban benar

Mt : rerata skor total

St : standar deviasi skor total

10

Page 11: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

p : proporsi peserta tes yang jawabannya benar pada soal (tingkat kesukaran)

q : 1-p

BAB 3 Reliabilitas

Pengukuran dalam sains maupun pengukuran dalam ilmu sosial seperti dalam penilaian kelas tidak pernah ajeg. Ketika kita melakukan pengukuran, pasti ada sedikit perbedaan. Ketika seseorang mengukur tinggi beberapa kali pada hari yang sama akan dihasilkan angka yang berbeda.

Pengukuran merupakan proses untuk memperoleh skor perorangan sehingga attribute yang diukur benar-benar menggambarkan kemampuan mereka.

Reliabilitas atau keajegan suatu skor adalah hal yang sangat penting dalam menentukan apakah tes telah menyajikan pengukuran yang baik. Hal yang paling penting dalam keajegan atau reliabilitas skor adalah adanya pengambilan keputusan tentang peserta tes.

A. Sumber Keajegan dan Ketidakajegan

Untuk memahami faktor-faktor yang menyebabkan terjadinya ketidakajegan, ada baiknya ditanyakan beberapa hal antara lain, “mengapa skor berbeda?”, faktor-faktor apa yang akan berpengaruh terhadap perolehan skor peserta didik? Faktor utama yang berpengaruh terhadap reliabilitas adalah adanya perbedaan individual. Terkadang reliabilitas dipengaruhi oleh faktor yang permanen ataupun faktor yang terjadi karena faktor sementara seperti karena kelelahan, menerka, atau pengaruh latihan.

B. Model Umum Reliabilitas

Pengukuran yang baik tentunya akan ajeg membedakan kemampuan peserta didik. Teori reliabilitas dikembangkan untuk menentukan ketidakajegan tersebut.

Setiap pengukuran, baik dalam sains maupun dalam penilaian kelas selalu mengandung kesalahan pengukuran. Konsep dasar reliabilitas juga menggunakan kesalahan pengukuran tersebut. Setiap skor yang diperoleh seorang peserta tes terdiri atas tiga ha; skor amatan yang sering pula disebut sebagai skor perolehan (observed test score), skor yang sebenarnya (true score) yaitu skor yang sesuai dengan kemampuan peserta tes yang sebenarnya, dan kesalahan pengukuran yaitu faktor-faktor yang mempengaruhi ketidakajegan suatu pengukuran adalah situasi

11

Page 12: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

yang mempengaruhi peroleh skor. Secara umum konsep dasar tersebut dinyatakan dalam persamaan matematis sebagai berikut:

Skor perolehan = Skor + Kesalahan pengukuran

Kesalahan pengukuran merupakan selisih antara skor amatan (perolehan ) dengan skor sebenarnya

Teori reliabilitas ditentukan berdasarkan varian antara skor perolehan yang merupakan penjumlahan dari varian skor sebenarnya dengan varian kesalahan pengukuran yaitu:

Persamaan ini menunjukkan bahwa skor tes ditentukan oleh dua hal, yaitu variabilitas skor sebenarnya dan variabilitas kesalahan pengukuran. Jika kesalahan itu memberikan kontribusi yang signifikan, maka tes menjadi tidak ajeg. Dengan kata lain, apabila pengukuran relatif tidak berarti, maka pengukuran menjadi ajeg.

Koefisien reliabilitas (rxx) menyajikan indeks relatif pengaruh skor sebenarnya dan skor kesalahan pengukuran terhadap skor yang diperoleh. Persamaan umum reliabilitas diturunkan dari perbandingan antara varian skor sebenarnya dengan varian skor perolehan:

Atau

C. Metode Sederhana Mengetimasi Reliabilitas

Tujuan utama mengestimasi reliabilitas adalah untuk menentukan seberapa besar variailitas yang terjadi akibat adanya kesalahan pengukuran dan seberapa besar variabilitas skor tes sebenarnya. Menurut teori klasik, sebagaimana telah diuraikan diatas, reliabilitas dihubungkan dengan pengertian adanya ketepatan suatu tes dalam pengukuran. Nunnaly (1970), Allen dan Yen (1979), kestabilan skor yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya. Jadi reliabilitas dapat dinyatakan sebagai tingkat keajegan atau kemantapan hasil dari

12

Page 13: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

dua hasil pengkuran terhadap hal yang sama. Hasil pengukuran itu diharapkan akan sama apabila pengukuran itu diulangi.

Reliabilitas mempunyai dua keajegan. Keajegan yang pertama adalah keajegan internal, yakni tingkat sejauh mana butir soal itu homogen baik dari segi tingkat kesukaran maupun bentuk soalnya. Keajegan kedua yaitu keajegan eksternal yakni tingkat sejauhmana skor dihasilkan tetap sama sapanjang kemampuan orang yang diukur belum berubah.

Perbedaan skor dari suatu pengukuran ke pengukuran lainnya dapat saja terjadi. Menurut Allen dan Yen (1979) perbedaan skor dari satu pengukuran ke pengukuran lain ini terjadi karena adanya standard erroe of measurement atau standar kesalahan pengukuran.

Perbedaan pengertian reliabilitas sangat bergantung kepada bagaimana indeks reliabilitas dihitung. Paling tidak terdapat empat konsep reliabilitas yaitu (1) paralel atau ekuivavlen, (2) test-retest atau stabilitas,(3) split-half atau belah dua, dan (4) internal consistency. Sebagian orang berpendapat bahwa metode split-half atau belah dua merupakan bagian dari metode keajegan internal (internal consistency) sehingga pembagian menjadi tiga bagian yaitu(1) ekuivalen, (2) stabilitas, dan (3) internal consistency. Kedua teknik ini pada prinsipnya sama.

Apabila hasil skor tes pertama sama dengan hasil skor tes kedua, maka tes dikatakan memiliki reliabilitas yang tinggi atau terdapat korelasi yang tinggi antara hasil tes pertama dengan hasil tes kedua. Kalau antara hasil tes pertama dan kedua tidak terdapat hubungan atau hubungannya rendah, maka tes itu dikatakan tidak reliabel.

Besar kecilnya reliabilitas suatu tes ditentukan oleh besar kecilnya nilai korelasi tes dinamakan indeks reliabilitas. Untuk mengestimasi reliabilitas banyak formula yang dapat digunakan.Crocker dan Algina (1968) memberikan pendekatan untuk mengestimasi reliabilitas dengan memperhatikan sumber kesalahan utama melalui penggunaan koefisien reliabilitas, ekuivalen, dan keajegan internal.

Koefisien reliabilitas soal pilihan ganda lebih mudah dimanfaatkan dalam pengambilan keputusan prestasi belajar. Gronlund (1985) menyebutkan bahwa untuk pengambilan keputusan individu, koefisien reliabilitas harus tinggi.

Tinggi rendahnya koefisien reliabilitas dipengaruhi oleh beberapa faktor. Crocker dan Algina (1986) menyebutkan bahwa faktot itu antara lain panjang suatu tes, kecepatan, homogenitas belahan, dan tingkat kesukaran soal. Menurut Allen dan Yen (1979) dan Crocker dan Algina (1986) tingkat kesukaran itu memegang peranan paling dominan.

13

Page 14: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

D. Metode Tes Ulang

Metode tes ulang atau test-retest sering pula dinamakan metode stabilitas merupakan pendekatan yang paling tua yang digunakan untuk mengestimasi reliabilitas. Pendekatan sering pula dinamakan single-test-double-trial methode.

E. Ekuivalen

Metode ekuivalen sering pula dinamakan alternate-forms methods atau double test-double-trial method. Metode ini berkaitan dengan penggunaan dua buah tes yang sama atau relatif sama kepada peserta didik yang sama. Kesamaan yang dimaksudkan pada tes adalah kesamaan-kesamaan tujuan, tingkat kesukaran, dan susunan.

Skor perolehan kedua tes itu lalu dikorelasikan. Koefisien korelasi dari kedua tes tersebut digunakan untuk mengestimasi koefisien reliabilitas tes. Korelasi yang digunakan adalah korelasi produk momen. Jika koefisien korelasinya tinggi, maka reliabilitas tesnya juga tinggi.

Metode ekuivalen atau paralel digunakan untuk mengatasi kelemahan yang terjadi pada metode tes ulang.

F. Belah Dua (Split Half Methods)

Pada bentuk double test-double-trial methode misalnya, guru harus mengembangkan lebih dari satu tes paralel kemudian mencari reliabilitas dari tes paralel tersebut. Metode ini mengandung kelamahan yaitu tes yang paralel belum tentu benar-benar menguji hal yang sama (homogen). Pendekatan kedua, yaitu single-test-double-trial methode kelamahan yang muncul adalah adanya kemungkinan peserta tes “telah mengingat” soal-soal yang diteskan.

Metode belah dua dapat mengatasi semua kelamahan yang terdapat pada metode tes ulang dan tes paralel. Metode ini memungkinkan mengestimasi reliabilitas tanpa harus menyelenggarakan tes dua kali. Dengan demikian beberapa kelemahan seperti carry-over effect, reactivity effect, dan khususnya pengaruh waktu terhadap peroleh skor sebenarnya dapat diminimalisasi.

1. Persamaan product moment

Dari sepuluh soal yang disajikan, pembagian dapat dilakukan dengan cara membagi dua yaitu bagian awal dan bagian akhir

2. Persamaan Flanagan

14

Page 15: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Persamaan lain yang dapat digunakan untuk menentukan reliabilitas belah dua adalah persamaan Flanagan yaitu:

r11 : reliabilitas tes

S12 : varian belahan pertama

S22 : varian belahan pertam

ST2 : varian total

Varian dapat ditentukan dengan persamaan:

3. Persamaan Rulon

Persamaan lainnya yang dapat digunakan untuk menentukan reliabilitas belah dua adalah persamaan Rulon yaitu:

r11 : reliabilitas tes

: varian beda

d : perbedaan antara skor belahan pertama dengan belahan kedua

: varian total

G. Internal Konsistensi (internal consistency)

Metode lainnya yang digunakan untuk menentukan reliabilitas adalah internal konsistensi yang berkaitan dengan unsur-unsur yang membentuk sebuah tes, yaitu soal-soal yang membentuk tes. Metode internal konsistensi sangat berbeda dengan tiga metode yang telah kita bahas sebelumnya. Tes yang terdiri atas banyak soal, tentu sangat dipengaruhi oleh validitas soal sebagaimana telah kita bahas dalam bab validitas.

Internal consistency didasarkan pada homogenitas atau korelasi antara skor jawaban pada setiap butir tes. Nunnaly (1972) menyatakan bahwa teknik ini didasarkan pada homogenitas atau korelasi antara skor jawaban pada setiap butir tes. Ia selanjutnya manyatakan bahwa teknik ini khususnya juga dipergunakan pada butir-butir yang dikotomi seperti soal pilihan ganda.

15

Page 16: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Jika korelasi rerata antara butir soal tinggi maka reliabilitasnya juga tinggi. Jika korelasi antara rerata mendekati nol, maka internal konsistensinya nol pula dan reliabilitasnya rendah. Nunnaly (1972) mengatakan bahwa pada tes meramalkan, reliabilitas tes seharunya baik. Jika terdapat banyak kesalahan pengukuran maka tidak dapat dilaksanakan dengan baik.

Konsep dasar koefisien alpha adalah jika sebuah tes cukup panjang, maka soal-soalnya tidak memiliki interkorelasi yang cukup tinggi. Internal keajegan merupakan fungsi dari jumlah soal dan rerata interkorelasi diatas soal.

Terdapat beberapa teknik dan persamaan yang digunakan untuk mencari reliabilitas dengan internal consistensi ini yaitu (1) koefisien alpha, (2) Kuder-Richardson-20, (3) Kuder-Richardson-21, dan (4) teknik Hoyt.

1. Koefisien Alpha (α)

Koefisien alpha dihitung dengan menggunakan persamaan sebagai berikut:

r11 : reliabilitas tes

k : jumlah soal

S12 : jumlah varian dari skor soal

St2 : jumlah varian dari skor total

Sebenarnya tidak terdapat suatu ukuran yang pasti mengenai berapa tinggi koefisien reliabilitas pada umumnya bergerak dari seratus hingga nol persen atau dari satu hingga nol. Reliabilitas yang baik atau memuaskan bergantung kepada tujuan atau kegunaan tes. Koefisien reliabilitas sebesar 0,5 sudah menunjukkan bahwa tes itu memiliki reliabilitas yang kurang baik. Remmers et. all. (1960) menyatakan bahwa koefisien reliabilitas 0,5 dapat dipakai untuk tujuan penelitian.

2. Persamaan Kuder-Richardson-20(KR-20)

Kuder-Richardson adalah orang ahli psikometri yang merumuskan persamaan untuk mencari reliabilitas sebagai berikut:

r11 : reliabilitas menggunakan persamaan KR-20

16

Page 17: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

p : proporsi peserta tes menjawab benar

q : proporsi peserta tes menjawab salah ( p = 1 – p )

∑pq : jumlah perkalian antara p dan q

k : banyaknya soal

S : standar deviasi simpangan baku merupakan akar varian yang dapat dicari dengan persamaan:

N : jumlah peserta tes

∑x2 : jumlah deviasi dari rerata kuadrat

3. Persamaan Hoyt

Persamaan Hoyt adalah salah satu persamaan yang digunakan untuk menentukan reliabilitas. Persamaan Hoyt adalah sebagai berikut:

Atau

r11 : reliabilitas tes

S12 : varian peserta tes

Ss2 : varian siswa

H. Standar Kesalahan Pengukuran

Indeks reliabilitas menyajikan informasi yang sangat berguna untuk mengevaluasi tes. Untuk mengetahui adanya pengaruh skor sebenarnya dan skor kesalahan, indeks reliabilitas dapat digunakan dengan mengestimasi seberapa besar skor berfluktuasi sebagai adanya kesalahan pegnukuran

Sebuah tes yang memiliki indeks 0,90 tentunya lebih reliabel dibandingkan dengan tes yang memiliki indeks reliabilitas 0,8. Namun demikian, indeks reliabilitas tidak menyajikan secara tepat hasil pengukuran. Untuk mengerahui secara nyata skor, harus diperhitungkan standar kesalahan pengukuran (standart error of measurement). Standar kesalahan pengukuran merupakan fungsi reliabilitas tes dan variabilitas skor dengan persamaan:

17

Page 18: Rangkuman Buku (Validitas)

Nama : Tedy TarudinNIM : 1000684Jurusan : Pendidikan Teknologi AgroindustriMata Kuliah : Evaluasi Pembelajaran

Standar error measurement menyajikan ukuran variabilitas dalam skor sebagai dasar dari adanya kesalahan pengukuran.

I. Faktor yang Berpengaruh Terhadap Reliabilitas

Tes yagn terdiri atas soal-soal yang banyak akan lebih reliabel dibandingkan dengan tes yang hanya terdiri atas soal yang sedikit. Cara menentukan reliabilitas yang banayknya soal berbeda dapat digunakan persmaan Spearman dan Brown sebagai berikut:

rn : indeks reliabilitas setelah ditambahkan soal

n : perkalian penambahan soal

r : indeks reliabilitas awal

BAB 4 Intreprestasi Hasil Tes

A. Analisis Kuantitatif (statistik) dan Interpretasi

Bagian ini akan menggambarkan hasil analisis kuantitatif yaitu hasil empiris dari suatu tes dan soal kemudian pengaruh hasil empiris tersebut terhadap kualitas soal maupun respon peserta tes.

Dalam bagian ini perhitungan statistik tidak dilakukan secara manual, melainkan dilakukan dengan komputer. Bagian ini akan membahas lebih mendalam tentang hasil empiris dan kemungkinan-kemungkinan interpretasi yang akan dibuat serta alternatif perbaikan soal apabila diperlukan.

18