BAB I LATIHAN 3

18
1 BAB I PENDAHULUAN A. Latar Belakang Masalah Peraturan Pemerintah Republik Indonesia Nomor 19 tahun 2005 tentang Standar Nasional Pendidikan, Pasal 63 Ayat (1) menyebutkan bahwa penilaian pendidikan pada jenjang pendidikan dasar dan menengah terdiri atas: (1) penilaian hasil belajar oleh pendidik, (2) penilaian hasil belajar oleh satuan pendidikan, dan (3) penilaian hasil belajar oleh pemerintah. Penilaian hasil belajar oleh pemerintah bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu pengetahuan teknologi dan dilakukan dalam bentuk ujian nasional (UN). Ujian nasional untuk sekolah dasar/madrasah ibtidaiyah/sekolah dasar luar biasa (SD/MI/SDLB) dilakukan pertama kali tahun 2008. Ujian tersebut bernama Ujian Akhir Sekolah Berstandar Nasional (UASBN) sesuai dengan Peraturan Menteri Pendidikan Nasional RI Nomor 39

description

vb

Transcript of BAB I LATIHAN 3

BAB I

PAGE 13

BAB IPENDAHULUAN

A. Latar Belakang Masalah

Peraturan Pemerintah Republik Indonesia Nomor 19 tahun 2005 tentang Standar Nasional Pendidikan, Pasal 63 Ayat (1) menyebutkan bahwa penilaian pendidikan pada jenjang pendidikan dasar dan menengah terdiri atas: (1) penilaian hasil belajar oleh pendidik, (2) penilaian hasil belajar oleh satuan pendidikan, dan (3) penilaian hasil belajar oleh pemerintah. Penilaian hasil belajar oleh pemerintah bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran tertentu dalam kelompok mata pelajaran ilmu pengetahuan teknologi dan dilakukan dalam bentuk ujian nasional (UN).

Ujian nasional untuk sekolah dasar/madrasah ibtidaiyah/sekolah dasar luar biasa (SD/MI/SDLB) dilakukan pertama kali tahun 2008. Ujian tersebut bernama Ujian Akhir Sekolah Berstandar Nasional (UASBN) sesuai dengan Peraturan Menteri Pendidikan Nasional RI Nomor 39 tahun 2007. Ujian ini bertujuan untuk menilai pencapaian kompetensi lulusan secara nasional pada mata pelajaran Bahasa Indonesia, Matematika, dan Ilmu Pengetahuan Alam (IPA) serta mendorong tercapainya target wajib belajar pendidikan dasar yang bermutu.

Ujian akhir sekolah berstandar nasional SD/MI/SDLB dilaksanakan secara terintegrasi dengan ujian sekolah/madrasah. Artinya setiap paket soal UASBN terdiri dari 25% soal yang ditetapkan oleh Badan Standar Nasional Pendidikan (BSNP) dan berlaku secara nasional, serta 75% soal yang ditetapkan oleh penyelenggara UASBN tingkat provinsi berdasarkan spesifikasi yang ditetapkan oleh BSNP. Dengan kata lain dalam paket soal terdiri dari 25% butir anchor items dan sisanya butir soal yang dibuat oleh masing-masing provinsi.

UASBN merupakan kegiatan pengukuran secara nasional. Pengu-kuran secara teknis adalah pemberian angka pada objek atau peristiwa menurut aturan-aturan yang memberikan arti kuantitatif secara numerik. Dalam pengukuran pendidikan ketika suatu tes dilakukan maka pengukuran berlaku, namun tidak semua pengukuran pendidikan harus menggunakan tes.Ujian nasional menggunakan tes objektif. Tes ini terdiri dari butir-butir soal pilihan ganda yang secara luas dikenal dan digunakan. Soal pilihan ganda terdiri dari suatu masalah yang dinyatakan sebagai pertanyaan langsung atau suatu pernyataan tidak lengkap dan suatu daftar pilihan solusi yang merupakan alternatif atau pilihan jawaban. Keunggulan tes jenis ini di antaranya adalah dapat diskor dengan mudah dan cepat serta ruang lingkup bahan yang ditanyakan sangat luas. Instrumen penilaian yang digunakan oleh pemerintah dalam bentuk ujian nasional (UN) menurut Peraturan Menteri Pendidikan Nasional RI Nomor 20 tahun 2007 tentang Standar Penilaian Pendidikan memenuhi persyaratan substansi, konstruksi, bahasa, dan memiliki bukti validitas empirik serta menghasilkan skor yang dapat diperbandingkan antarsekolah, antardaerah, dan antartahun.Keterbandingan skor antarsekolah, kabupaten/kota, provinsi, dan antartahun dapat diperoleh jika semua peserta tes mengerjakan soal-soal (paket tes) yang sama. Perbedaan skor antarmereka menunjukkan per-bedaan tingkat kemampuannya. Tetapi dalam praktiknya, pengadministrasian soal-soal sama antartahun, akan merugikan peserta tes yang mengerjakan pada tahun-tahun pertama dan menguntungkan mereka yang ikut tes pada tahun-tahun terakhir, karena mereka yang ikut tes belakangan hafal soal-soal yang akan keluar. Juga, pengadministrasian soal-soal yang sama di setiap sekolah sangat beresiko terhadap kebocoran.Sebagai jalan keluar agar keadilan (fairness) dan kerahasiaan (test security) soal-soal ujian terjaga mengharuskan pengadministrasian paket-paket tes berbeda antartahun, daerah, dan tempat tes. Tetapi masalah lain muncul, dengan mengadministrasian paket-paket yang berbeda, perbedaan skor antarpeserta tes tidak dapat langsung disimpulkan adanya perbedaan kemampuan antarmereka, karena tingkat kesukaran paket yang digunakan mempengaruhi perbedaan tersebut.

Walaupun paket-paket tes disusun dengan kisi-kisi yang sama (bentuk soal sama, standar kelulusan sama, materi sama, dan indikator sama), soal-soal yang muncul di setiap paket akan berbeda. Perbedaan ini mempengaruhi tingkat kesukaran soal yang pada akhirnya mempengaruhi tingkat kesukaran tiap paket secara keseluruhan. Sebagai akibat lebih lanjut, tidak tepat menyamakan nilai setiap skor mentah (jumlah soal yang dijawab benar) dari setiap paket tes. Alangkah tidak adil, misalkan, benar 30 soal (dari 40 soal ujian) dari paket tes yang relatif sukar sama nilainya dengan benar 30 soal dari paralel paket tes yang terdiri dari soal-soal relatif mudah. Dengan kata lain, penskoran seperti apa yang diterapkan pada UN merugikan mereka yang mendapatkan paket-paket sukar dan menguntungkan mereka yang mendapatkan peket-paket mudah.Oleh karena itu, untuk menanggulangi ketidakadilan tersebut dilakukan penyamaan atau penyetaraan matriks skor (equating). Penyetaraan matrik skor merupakan cara untuk memperoleh suatu konversi nilai dari skor mentah suatu paket ke skor mentah paket yang lain. Dengan demikian melalui penyetaraan matriks skor dimungkinkan siswa menjawab benar 32 soal di Paket A, misalkan, mendapat nilai sama dengan siswa menjawab benar 30 soal di Paket B, karena Paket B lebih sukar dua soal dari Paket A.

Akibat lebih besar dengan tidak adanya penyetaraan (equating) di UN adalah ketidakadilan pada kelulusan. Batas lulus 5,25 pada paket-paket sukar akan merugikan siswa-siswa yang mengerjakannya dan akan menguntungkan mereka yang mendapatkan paket-paket mudah. Oleh karena itu kemungkinan besar ada siswa yang seharusnya lulus tetapi karena mendapatkan paket sukar menjadi tidak lulus. Dengan demikian masalah penyetaraan menjadi penting untuk dikaji melalui penelitian yang komprehensif.Untuk dapat membandingkan atau menyetarakan skor ujian nasional diperlukan desain penyetaraan yang tepat. Hal ini sejalan dengan pendapat Marco, Petersen, dan Stewart bahwa karena penyetaraan merupakan prosedur empirik, maka dibutuhkan desain untuk mengumpulkan data dan suatu aturan untuk mentransformasikan skor-skor dari suatu tes pada skor- skor dari tes yang lain. Menurut Hambleton dan Swaminathan ada tiga desain dasar yang secara luas digunakan untuk menyelesaikan studi penyetaraan. Ketiga desain itu adalah metode kelompok tunggal (single group method), metode kelompok ekivalen (equivalent group method), dan metode tes jangkar (anchor test design). Terdapat dua cara penyamaan skor pada teori klasik yaitu penyamaan cara linear dan cara ekipersentil. Menurut Hambleton, Swaminathan, dan Rogers asumsi penyetaraan dengan cara linear adalah kedua skor tes distribusinya berbeda, distribusi tersebut terkait dengan rerata dan simpangan bakunya. Masalahnya adalah kapan menggunakan cara linear dan cara ekipersentil. Dari dua cara tersebut permasalahan berikutnya adalah bagaimana rerata dan variansi skor hasil penyetaraannya.Variansi merupakan salah satu parameter sebaran data. Makin besar variansi makin lebar penyebaran datanya dan makin kecil variansi makin sempit sebaran datanya. Variansi skor hasil penyetaraan, baik menggunakan metode linear maupun ekipersentil diharapkan memiliki variansi yang stabil. Masalahnya adalah lebih stabil mana variansi hasil penyetaraan antara metode linear dan metode ekipersentil. Penyetaraan skor tes dapat dilakukan untuk mengukur atribut yang sama pada level pendidikan atau tingkat kelas yang sama. Proses ini disebut penyetaraan horizontal. Di samping itu dapat juga dilakukan untuk mengukur atribut yang sama pada level pendidikan atau tingkat kelas yang berbeda dan proses ini disebut penyetaraan vertikal. Pengertian penyetaraan, penskalaan (scaling), dan penormaan (norming) seringkali dikaburkan. Menurut Petersen, Kolen, dan Hoover, penskalaan adalah proses menghubungkan bilangan, angka atau nomor dengan kinerja peserta tes untuk merefleksikan level pencapaian seseorang, misalnya skala skor tara persentil dan tara tingkat. Penormaan adalah proses yang menggambarkan secara statistik kinerja peserta tes dalam suatu kelompok yang relevan, yang mewakili populasi yang dibandingkan, misalnya norma lokal atau nasional. Penyetaraan dibatasi pada skala skor tes, agar skor tersebut dapat saling dipertukarkan. Dengan kata lain penyetaraan adalah proses untuk menentukan hubungan antara skala skor dari dua atau lebih tes agar skor-skor tersebut diperlakukan secara adil.Pengukuran dalam pendidikan mengenal dua macam kekeliruan, yaitu kekeliruan acak atau kekeliruan sampel (sampling error) dan kekeliruan sistematik (systematic error). Kekeliruan sampel adalah perbedaan antara keadaan sebenarnya yang ada pada populasi (true score). Hal ini disebabkan oleh karena hasil ukuran pada sampel tersebut hanya merupakan salah satu dari sekian banyak kemungkinan hasil pengukuran yang dapat dicuplik secara berulang-ulang dari suatu populasi. Kekeliruan sampel tetap saja muncul meskipun alat ukur yang dipakai, situasi dan kondisi pengukuran, maupun jenis kemampuan yang diukur tetap sama.Kekeliruan sistematik menyebabkan munculnya hasil penyetaraan yang menjurus ke arah yang sama dengan jumlah tertentu. Misalnya, hasil penyetaraan selalu lebih tinggi dalam jumlah tertentu dibandingkan dengan skor sesungguhnya (skor tulen). Kekeliruan semacam ini terjadi karena adanya faktor kesalahan pada alat ukur (instrumental error) dan faktor kesalahan manusia (human error). Dengan kata lain karakteristik alat ukur ikut mempengaruhi variansi skor hasil penyetaraan. Salah satu karakteristik alat ukur adalah validitas pengukuran. Validitas pengukuran adalah kecocokan di antara alat ukur dan atau pengukuran dengan sasaran ukur. Menurut Messick validitas merujuk pada tingkat bukti empirik dan dukungan alasan teoretik yang memadai dan kelayakan interpretasi berdasarkan skor tes. Senada dengan Messick, Gronlund dan Linn menyatakan bahwa validitas merujuk kepada ketepatan membuat interpretasi skor tes dan hasil evaluasi lain dengan memperhatikan penggunaan pada umumnya. Dengan demikian validitas pengukuran sangat mempengaruhi terhadap skor tes yang pada gilirannya akan mempengaruhi sebaran skor hasil penyetaraan.Di samping skor tes, studi yang dilakukan oleh Lord and Wingersky (1985) merekomendasikan bahwa karakteristik tes akan berhubungan terhadap sampel dan butir gandeng serta tingkatan kemampuan siswa sesuai dengan karakteristik butir gandeng. Penelitian lebih lanjut yang disarankan oleh Livingston, Doran, dan Wright terhadap kombinasi terbaik penarikan sampel dan metode-metode penyetaraan adalah yang terkait dengan banyaknya metode penyetaraan dan variasinya serta metode penarikan sampel yang dimungkinkan. Dengan kata lain jumlah responden pada kelompok yang akan disetarakan (sekolah atau daerah) akan mempengaruhi terhadap hasil penyetaraan.Terkait dengan jumlah responden, Eid meneliti tentang pengaruh ukuran sampel (sample size) pada penyetaraan butir tes dan menyarankan untuk menggunakan ukuran sampel 200, 400, dan 800. Penelitian yang dilakukan Livingston dan Feryok pada penyetaraan menggunakan sampel kecil sebesar 200 dengan penghalusan log-linier, menyimpulkan bahwa dengan sampel kecil tersebut dihasilkan hubungan penyetaraan yang paling akurat pada momen ketiganya yaitu mean, deviasi standar, kemiringan (skewness), dan kelancipan (curtosis). Penelitian tersebut menunjukkan bahwa ukuran sampel mempengaruhi terhadap sebaran skor hasil penyetaraan.B. Identifikasi Masalah

Terdapat berbagai metode penyetaraan tes, baik yang tercakup dalam teori tes klasik maupun tes modern (teori respon butir). Pada teori klasik terdapat metode penyetaraan linear dan metode penyetaraan ekipersentil. Dalam teori respon butir, untuk jawaban dikotomi, terdapat metode penyetaraan regresi, rerata dan sigma, tegar rerata dan sigma, dan lengkung karakteristik. Untuk teori klasik apakah ragam metode penyetaraan tersebut berpangaruh terhadap variansi skor hasil penyetaraan?

Demikian pula dengan jumlah responden. Apakah jumlah responden mempengaruhi sebaran skor hasil penyetaraan? Bagaimana perbedan pengaruh jumlah responden kecil, sedang, dan banyak (200, 400, dan 800) terhadap sebaran skor hasil penyetaraan dilihat dari metode penyetaraan yang digunakan?

Selanjutnya jika ditinjau dari kekeliruan yang disebabkan oleh faktor manusia (human error), karakteristik peserta tes diduga ikut berpengaruh terhadap variansi skor hasil penyetaraan. Apakah motivasi peserta tes, strategi menjawab soal (test wiseness) dan tingkat kecemasan ikut berpengaruh terhadap variansi skor hasil penyetaraan? Apakah faktor harapan penilai dan standar penilaian yang dipakai berpengaruh terhadap variansi skor hasil penyetaraan?

Disain penyetaraan tes juga beragam. Setidak-tidaknya terdapat lima disain penyetaraan, yaitu rancangan tes tunggal, kelompok peserta tes tunggal, kelompok ekivalen, peserta tes gandeng, dan butir tes gandeng. Apakah disain penyetaraan berpengaruh terhadap variansi skor hasil penyetaraan?C. Pembatasan Masalah

Dari uraian yang dikemukakan pada identifikasi masalah di atas ternyata banyak faktor yang diduga mempengaruhi variansi skor hasil penyetaraan. Dalam penelitian ini, faktor yang diduga mempengaruhi variansi skor hasil penyetaraan dibatasi pada metode penyetaraan linear, dan metode ekipersentil serta jumlah responden.

Terdapat lima disain penyetaraan, yaitu disain tes tunggal, kelompok peserta tes tunggal, kelompok ekivalen, peserta tes gandeng, dan butir tes gandeng (internal anchor items). Dalam penelitian ini dibatasi pada disain butir gandeng internal (internal anchor items). Alasan penggunaan disain ini adalah karena disain tersebut merupakan disain yang digunakan dalam UASBN.D. Perumusan Masalah

Perumusan masalah dalam penelitian ini dinyatakan dengan cara membandingkan variansi dari kedua metode penyetaraan dilihat dari ukuran sampel, sehingga rumusan masalah penelitian dapat dirinci sebagai berikut:

1. Apakah terdapat perbedaan variansi skor hasil penyetaraan antara metode menyetaraan linear dan metode penyetaraan ekipersentil untuk ukuran sampel 200?

2. Apakah terdapat perbedaan variansi skor hasil penyetaraan antara metode menyetaraan linear dan metode penyetaraan ekipersentil untuk ukuran sampel 400?

3. Apakah terdapat perbedaan variansi skor hasil penyetaraan antara metode menyetaraan linear dan metode penyetaraan ekipersentil untuk ukuran sampel 800?

E. Kegunaan Penelitian

Kegunaan hasil penelitian ini dapat memberikan manfaat baik secara teoretis maupun praktis. Secara teoretis, hasil penelitian ini memberikan kontribusi tentang pengukuran dan penilaian pendidikan, khususnya tentang bagaimana memperbandingkan skor ujian nasional antarsekolah dan antardaerah. Hasil penelitian ini juga dapat dimanfaatkan sebagai masukan awal untuk melakukan penelitian lanjutan. Penelitian lanjutan dapat dilaksanakan dengan mengelaborasi lebih mendalam variabel yang diteliti atau melibatkan variabel lain yang relevan.

Secara praktis penelitian ini memberikan manfaat dalam pelaporan dan pemetaan prestasi hasil belajar peserta didik antar sekolah. Dengan diketahuinya perbandingan skor ujian nasional antar sekolah dapat digunakan sebagai bahan perbaikan bagi sekolah yang bersangkutan untuk memperbaiki mutu pendidikan dibandingkan dengan mutu sekolah lain di daerahnya. Demikian juga untuk daerah, dengan diketahuinya perbandingan skor ujian nasional antardaerah (kabupaten/kota) dapat digunakan sebagai bahan perbaikan untuk meningkatkan mutu pendidikan di daerah.

Peraturan Menteri Pendidikan Nasional RI No. 39 tahun 2007 tentang Ujian Akhir Sekolah Berstandar Nasional (UASBN) untuk SD/MISDLB tahun Pelajaran 2007/2008 (Jakarta: Badan Standar Nasional Pendidikan), p. 6.

William Wiersma dan Stephen G. Jurs, Educational Measurement and Testing (Boston: Allyn and Bacon, 1990), p. 8.

Norman E. Grounlund, Measurement and Evaluation in Teaching (New York: MacMillan Publishing Company, 1985), p. 169.

Anthony J. Nitko, Educational Assessment of Student (New Jersey: Prentice-Hall, 2001), p. 148.

Peraturan Menteri Pendidikan Nasional RI Nomor 20 tahun 2007 tentang Standar Penilaian Pendidikan, p. 9.

Gary L. Marco, Nancy S. Petersen, dan Elizabeth E. Stewart, A Test of the Edequacy of Curvilinear Score Equating Model, New Horizons in Testing: Latent Trait Test Theory and Computerized Adaptive Testing, ed. David J. Weiss (New York: Academic Press, Inc., 1983), p. 148.

R. K. Hambleton dan H. Swaminathan, Item Response Theory: Principles and Application (Boston: Kluwer, 1985), p. 198.

Ronald K. Hambleton, H. Swaminathan, and H. Jane Rogers, Fundamentals of Item Respons Theory (California: SAGE Publications, Inc., 1991), p. 124.

Robert L. Linn (ed.), Educational Measurement (New York: Macmillian Publishing Company, 1989), pp. 221-241.

Dali S. Naga, Pengantar Teori Sekor pada Pengukuran Pendidikan (Jakarta: Gunadarma,

1992), p. 116.

Naga, op. cit. p. 116.

Brian M. Tissue, Error: Radom, Error, and Systematic Error, 2000

HYPERLINK "http://www" http://www.chem.vt.edu/chem.ed/data/error.html, (diakses tanggal 12 Oktober 2008).

Linn, Robert L. (ed.), op. cit., p. 13.

Gronlund, Norman E. and Robert L. Linn, Measurement and Evaluation in Teaching (New York: Macmillan Publishing Company, 1990), p. 47.

Ghada K., Eid, Effects of Sample Size in the Equating of Test Items, p. 2, HYPERLINK "http://findarticles.com/p/articles/mi_qa3673/is_200510/ai_n15641924"http://findarticles.com/p/articles/mi_qa3673/is_200510/ai_n15641924 (diakses tanggal 12 Oktober 2008).

S. A. Livingston, N. J. Doran, dan N. K. Wright, What Combination of Sampling and Equating Methods Work Best?, Applied Measurement in Education, Vol. 3, 1990, p. 93.

Eid, op. cit., p. 1.

S. A. Livingston dan N. J. Feryok, Univariate Versus Bivariate Smooting in Frequency Equating, Reserach Report No. 87-36 (Princeton, N.J.: Educational Testing Service, 1987), p. 23.

PAGE