Evaluasi Kinerja Yang Subjektif Di Sektor Publik - Bukti Dari Inspeksi Sekolah
-
Upload
sophia-ririn-kali -
Category
Documents
-
view
40 -
download
0
description
Transcript of Evaluasi Kinerja Yang Subjektif Di Sektor Publik - Bukti Dari Inspeksi Sekolah
I. PENDAHULUAN :
Dalam usaha untuk membuat organisasi publik yang lebih efisien, pemerintah di seluruh
dunia memanfaatkan sasaran kinerja yang ‘keras (hard)’ untuk mengevaluasi kualitas
pelayanan. Contohnya skor tes siswa untuk sektor pendidikan di AS, Inggris dan Chili (lihat
survey oleh Figlio dan Loeb, 2011) dan waktu tunggu di rumah sakit dalam sistem
pelayanan kesehatan masyarakat di Inggris (Besley, Bevan dan Buchardi, 2008; Propper et
al, 2008). Akuntabilitas yang keras atau pengukuran kinerja yang objektif tersebut memiliki
memiliki manfaat transparansi tetapi juga kelemahan potensial, yaitu dapat menyebabkan
perilaku gaming dalam lingkungan di mana insentif hanya berfokus pada satu dimensi dari
hasil.
Di sisi lain, evaluasi kinerja subyektif “mengukur apa yang penting”, jika evaluator dapat
menggabungkan informasi keras dan lunak untuk mengukur hasilnya. Namun, sistem di
mana evaluator diperbolehkan untuk melakukan penilaiannya sendiri, daripada mengikuti
aturan keputusan formal, menimbulkan kekhawatiran baru. Sebagai contoh, hasil dari
literatur teoritis menekankan “aktivitas yang berpengaruh” dan “pilih kasih” (Milgrom dan
Roberts 1988, Prendergast dan Topel 1996), yang membuat pengukuran subjektif “dapat
disuap” (Dixit, 2002). Bukti empiris dari efektivitas evaluasi subyektif masih belum kuat.
Sebagaimana dicatat oleh Prendergast (1999, p.33), literatur ekonomi sebagian besar
berfokus pada "output yang mudah diamati dari pekerja, yang merupakan sebagian kecil
dari populasi".
Tulisan ini berusaha untuk menjembatani kesenjangan dengan mengevaluasi secara empiris
evaluasi kinerja subjektif untuk sekolah. Lokasinya adalah sistem pendidikan umum Inggris,
di mana inspektur independen melakukan kunjungan, mengawasi dan melaporkan tentang
kualitas sekolah. Selain itu, sekolah yang dinilai “gagal” mungkin dikenakan sanksi, seperti
inspeksi yang lebih sering dan intensif. Inspektur menggabungkan metrik keras, seperti skor
tes, dengan yang lebih lembut, seperti observasi pengajaran di kelas, dalam rangka untuk
melakukan penilaian tentang kualitas sekolah. Hampir tidak ada bukti empiris mengenai
apakah sistem seperti ini untuk sektor pendidikan berfungsi dalam prakteknya.
Penulis memberikan bukti perihal efektivitas dari evaluasi kinerja subjektif yangmengikuti
dua dimensi berikut. Pertama, apakah peringkat dari inspektur memberikan informasi
tambahan pada kualitas sekolah, melebihi yang sudah diketahui publik ? Uji validitas ini
diimplementasikan sebagai berikut : penulis bertanya apakah peringkat inspeksi
berhubungan dengan dasari pengukuran sekolah yang berkualitas – berasal dari survei
siswa, laporan cara mengajar guru, serta kepuasan orangtua - tergantung pada karakteristik
sekolah yang diamati seperti peringkat nilai ujian dan proporsi siswa yang memenuhi syarat
untuk makan siang gratis.
Kedua, penulis memeriksa apakah rating inspeksi yang gagal menyebabkan keuntungan
berikutnya dalam skor tes siswa. Mengidentifikasi efek dari rating gagal pada nilai tes adalah
kendala karena jenis masalah pemulihan rata-rata (mean reversion) yang ditemui dalam
literatur tentang evaluasi program pasar tenaga kerja (lihat Ashenfelter, 1978; Heckman,
1
Lalonde dan Smith, 1999). Hal ini karena tugas untuk pemulihan kegagalan, setidaknya
sebagian didasarkan pada realisasi masa lalu dari variabel hasil, skor tes. Ancaman untuk
mengidentifikasi adalah bahwa kinerja yang buruk sebelum inspeksi hanya karena nasib
buruk dan bahwa tes skor di sekolah yang gagal akan meningkat, bahkan tanpa adanya
inspeksi gagal. Setiap strategi yang kredibel harus mengatasi kelemahan tersebut.
Penelitian ini memanfaatkan ciri rancangan sistem pengujian di Inggris untuk menilai efek
penyebab dari inspeksi yang gagal. Sebagaimana dijelaskan secara rinci di bawah, tes
untuk siswa Tahun 6 (umur 11) di Inggris yang diberikan pada minggu kedua bulan Mei
setiap tahun. Tes ini ditandai secara eksternal, dan hasilnya diberikan ke sekolah-sekolah
dan orang tua pada pertengahan Juli. Jeda singkat antara Mei dan Juli memungkinkan
penulis untuk mengatasi masalah pemulihan rata-rata (mean reversion) : sekolah yang
gagal pada bulan Juni adalah gagal setelah tes pada bulan Mei tapi sebelum inspektur
mengetahui hasil dari test. Dengan membandingkan sekolah yang gagal di awal tahun
akademik - September, katakanlah - dengan sekolah gagal di Juni penulis dapat
mengisolasi mean reversion dari inspeksi gagal.
Temuan dari penelitian ini adalah sebagai berikut. Apakah peringkat inspeksi berkorelasi
dengan laporan siswa (dan orang tua) dari praktek sekolah, bukti-bukti menunjukkan bahwa
peringkat inspeksi yang sangat terkait dengan survei pengukuran kualitas sekolah. Sebagai
contoh, asosiasi antara peringkat inspeksi dan survei siswa, laporan cara mengajar guru
secara ekonomi berguna dan secara statistik signifikan, bahkan setelah pengkondisian atas
peringkat tes sekolah, proporsi siswa yang memenuhi syarat untuk makan siang gratis dan
karakteristik sekolah dan siswa lainnya. Hasil ini menyiratkan bahwa siswa yang terdaftar di
sekolah dengan penilaian pemeriksaan yang lebih baik mengalami lingkungan di mana,
menurut laporan siswa sendiri, cara mengajar gurunya lebih unggul. Temuan yang serupa
atas ukuran lainnya dari kualitas sekolah, berasal dari tanggapan survei siswa dan orangtua,
termasuk kepuasan orangtua. Hasil ini menunjukkan bahwa peringkat pemeriksaan
memberikan informasi bagi pandangan “orang dalam” atas sekolah, tergantung pada ukuran
tradisional dari tribut sekolah.
Kontribusi utama dari penelitian ini adalah untuk memberikan evaluasi empiris perihal efekti
tas inspeksi sekolah. Meskipun negara-negara dengan inspeksi sekolah yang komprehensif
masih langka, ada beberapa indikasi yang menunjukkan minat untuk mengadopsinya
mengalami pertumbuhan. Mengingat bahwa inspeksi sistematis telah terjadi di Inggris sejak
awal tahun 1990-an, tampaknya agak mengejutkan bahwa belum ada evaluasi kuantitatif
perihal efektitasnya.
Selain literatur yang disebutkan sebelumnya atas evaluasi kinerja subjektif, penelitian ini
juga terkait dengan literatur kecil yang menyelidiki perilaku birokrasi. Misalnya, Heckman,
Smith dan Taber (1996) menunjukkan bahwa dalam konteks program pelatihan kerja
pekerja kasus, yang diperbolehkan untuk menggunakan penilaiannya sendiri dalam
mengalokasikan pelatihan, cenderung memanjakan preferensinya sendiri dengan
mendaftarkan pelamar yang paling diuntungkan dan paling dipekerjakan ke dalam program.
2
Akhirnya, tulisan ini juga memberikan kontribusi untuk literatur yang berkembang mengenai
mekanisme untuk meningkatkan pelayanan publik, khususnya bagi masyarakat miskin.
Sejumlah contoh ada dari pengaturan negara berkembang, termasuk Olken (2007).
II. KONTEKS KELEMBAGAAN :
Meskipun tidak ada akses bebas untuk masuk atau keluar dari sekolah, sistem sekolah di
Inggris tetap mengadopsi beberapa unsur penting yang menyerupai pasar. Secara khusus,
unsur pilihan sekolah dan anggaran sekolah terkait dengan tingkat pendaftaran. Setiap
sekolah memiliki dewan direksinya sendiri, yang terdiri dari perwakilan orangtua dan
perwakilan dari otoritas lokal serta komunitas lokal. Sekolah mengelola anggarannya sendiri
dan dewan direksi bertanggung jawab untuk mempekerjakan kepala sekolah, serta
mengevaluasi dan menetapkan gajinya secara tahunan. Ada kurikulum nasional dan
pengujian siswa terjadi pada usia 7, 11, 14, 16 dan 18. Nilai ujian diterbitkan dalam bentuk
tabel liga sekolah.
Sejak awal tahun 1990-an, semua sekolah negeri Inggris telah diperiksa oleh Office for
Standards in Education, atau Ofsted, merupakan lembaga pemerintah independen.
Sebagaimana dicatat oleh Johnson (2004), Ofsted memiliki tiga fungsi utama : (i)
memberikan umpan balik dan saran kepada kepala sekolah dan guru; (ii) memberikan
informasi kepada orang tua dan calon orang tua murid untuk membantu mereka dalam
proses pengambilan keputusan, dan (iii) mengidentifikasi sekolah yang mengalami
kelemahan yang serius.
Pemeriksaan telah berkembang sejak dibentuk dan untuk sekolah dasar, telah ada tiga
siklus inspeksi penuh sejak tahun 1995, setiap siklus berlangsung antara empat dan enam
tahun. Sekolah biasanya diperiksa sekali dalam setiap siklus. Meskipun sebagian ebsar
kategori penilaian dan aturan pengungkapan publik tidak berubah selama periode ini,
kerangka inspeksi, atau seperangkat aturan yang digunakan untuk sekolah-sekolah, telah
berkembang dari waktu ke waktu. Yang paling penting untuk penelitian ini, sampai dengan
Juli 2006 sekolah memiliki waktu berminggu-minggu, kadang-kadang berbulan-bulan, sejak
adanya pemberitahuan kapan pemeriksaan akan dilakukan. Sejak September 2006, periode
pemberitahuan tersebut secara drastis dikurangi, maksimal tiga hari dan tidak ada
pemberitahuan, di mana inspektur tiba di sekolah tanpa pemberitahuan.
Peringkat Ofsted dapat dipandang sebagai suatu proses dua tahap. Dalam tahap yang
pertama, inspektur membentuk penilaian sebelumnya tentang sekolah atas dasar data
‘keras’, yaitu nilai tes, dikombinasikan dengan karakteristik latar belakang yang digunakan
untuk mencocokkan sekolah dengan peer group-nya.
Tahap kedua melibatkan kunjungan ke sekolah, biasanya dengan dua atau lebih inspektur
yang berlangsung selama satu atau dua hari. Selama kunjungan ini inspektur
mengumpulkan bukti kualitatif pada kinerja dan cara mengajar di sekolah. Hal ini dapat
dilihat sebagai upaya untuk mengungkap heterogenitas yang tidak teramati, yang mungkin
dapat membantu menjelaskan mengapa kinerja sekolah secara relatif berada di bawah atau
3
di atas peer group-nya. Pedoman untuk inspektur menetapkan bahwa “setidaknya dua
pertiga dari waktu belajar di sekolah harus digunakan untuk pengamatan langsung proses
belajar dan mengajar, memeriksaan pekerjaan, penilaian dan catatan dari siswa, kemudian
berdiskusi dengan siswa (Ofsted, 2003, bagian 4)”. Inspektur menghabiskan sebagian besar
waktunya di sekolah pada pengamatan pelajaran, sehingga sebagian besar guru di sebuah
sekolah dasar yang diamati dan dinilai, setidaknya sekali. Peringkat guru secara individu
tidak diungkapkan ke sekolah, meskipun skor agregatnya diungkapkan. Bukti yang
dikumpulkan oleh inspektur selama kunjungan serta data kinerja tes membentuk dasar bukti
untuk laporan setiap sekolah, yang dirilis segera setelah pemeriksaan. Laporan inspeksi
setiap sekolah dapat di-download dari internet.
Unsur sanksi berasal dari kekuatan hukum otoritas pendidikan lokal untuk menunjuk sebuah
dewan direksi sekolah yang baru jika sekolah tersebut dianggap gagal oleh Ofsted. Pada
gilirannya, dewan direksi dapat memberhentikan kepala sekolah. Sekolah yang gagal juga
diinspeksi ulang dan dilakukan pengawasan yang lebih besar. Tidak ada hadiah langsung
untuk laporan yang baik atau luar biasa.
Perlu dicatat bahwa pemeriksaan sistem seperti di Inggris, meskipun tanpa unsur hukuman,
telah diterapkan di Selandia Baru dan Belanda untuk beberapa waktu. Swedia juga baru-
baru mengadopsi inspeksi sekolah.
III. BUKTI ATAS VALIDITAS PERINGKAT INSPEKSI :
Singkatnya, analisis ini menunjukkan bahwa peringkat inspeksi dapat membantu mendeteksi
cara mengajar guru yang baik dan buruk (atau kepuasan orangtua yang tinggi dan rendah)
di antara sekolah dengan peringkat tes yang sama dan komposisi sosial ekonomi dari siswa.
Hasilnya sangat konsisten untuk semua pengukuran siswa dan orangtua : peringkat inspeksi
yang dilakukan, memang menyampaikan informasi tentang kualitas sekolah melebihi
informasi yang sudah tersedia untuk publik, seperti skor tes, jenis sekolah, proporsi siswa
yang memenuhi syarat mendapatkan makan siang gratis, dan sebagainya Selain itu, hasil
regresi yang terpisah untuk masing-masing item membentuk skor komposit yang juga
menunjuk pada kesimpulan yang sama. Sebagai contoh, masing-masing dari enam item
yang membentuk cara mengajar guru menunjukkan nilai komposit bahwa hubungan dengan
pemeriksaan peringkat adalah negatif dan secara statistik signifikan. Yaitu, peringkat
inspeksi yang lebih baik dikaitkan dengan cara mengajar guru yang lebih baik pada enam
ukuran yang mendasarinya. Hal ini menyiratkan bahwa pengamatan bersyarat di sekolah
dan karakteristik siswa, siswa di sekolah dengan peringkat yang tinggi mengalami
lingkungan di mana guru lebih mungkin untuk: mengambil tindakan ketika seorang siswa
melanggar aturan; membuat siswa bekerja dalam kapasitas penuhnya, menjaga ketertiban
di kelas, seperangkat pekerjaan rumah, memeriksa pekerjaan rumah yang telah dilakukan
dan menilai pekerjaan siswa
IV.KESIMPULAN :
1. Analisis validitas : peringkat inspeksi sangat terkait dengan pengukuran-pengukuran yang
mendasari kualitas sekolah yang tidak diamati oleh inspektur, bahkan setelah
4
mensyaratkan karakteristik sekolah tradisional (seperti peringkat tes dan proporsi siswa
yang memenuhi syarat untuk makan siang gratis).
2. Hal ini menunjukkan bahwa inspektur menambah nilai dalam hal mengungkap beberapa
heterogenitas yang tidak teramati dalam kualitas sekolah.
3. Efek dari inspeksi yang gagal : siswa Tahun 6 (umur 11) sdi sekolah yang gagal
mendapatkan standar deviasi 0,12 pada skor relatif dari tes matematika nasional
terhadap siswa yang terdaftar di sekolah gagal. Efek pemulihan untuk Inggris adalah
keuntungan 0,08 dari standar penyimpangan.
4. Hasil ini kuat untuk metode estimasi yang berbeda : perbandingan sederhana pada hasil
pasca-pemulihan untuk kontrol dan pemulihan kelompok serta perbedaan-perbedaan
dalam model memberikan hasil yang sangat mirip.
5. Keseluruhan efek menutupi heterogenitas substansial dalam efek pemulihan. Perolehan
terbesar adalah untuk siswa dengan nilai sebelum (usia tujuh) tes Tahap Kunci 1. Dalam
kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa dengan nilai yang
lebih tinggi mendapatkanpaling banyak : siswa di kuartil bawah dari distribusi
kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan perkiraan efek
yang terus meningkat dari 0,1 untuk kuartil terendah hingga 0,3 untuk kuartil tertinggi.
Untuk Inggris, perkiraan untuk kisaran subkelompok ini antara 0,08 dan 0,18 dari standar
deviasi.
6. (Ini adalah efek yang sangat besar. Bandingkan dengan efekkualitas guru, Rivkin et al,
2005;.bersekolah dengan tingkat pencapaian yang lebih tinggi, Hastings et al, 2009, atau
sebuah sekolah dengan hak istimewa, Abdulkadiroglu et al, 2011.)
7. Temuan ini konsisten dengan pandangan bahwa anak-anak dengan orang tua
berpenghasilan rendahadalah yang paling diuntukan dengan adanya inspeksi.
8. Penulis tidak menemukan bukti yang menunjukkan bahwa sekolah mampu mendorong
kinerja tes dengan sistem gaming.
A. Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak termasuk siswa
berkemampuan rendah mengambil tes gabungan.
B. Kedua, bukti tidak mendukung gagasan bahwa guru menargetkan siswa pada margin
pencapaian tingkat kemahiran resmi (mencapai ‘level 4’ pada tes Tahap Kunci 2) dengan
mengorbankan siswa di atas atau di bawah ambang batas ini.
C. Ketiga, walaupun hasil tes semakin memudar dari waktu ke waktu, terdapat bukti yang
menunjukkan bahwa beberapa siswa memperoleh posisi terakhir ke jangka menengah,
bahkan setelah meninggalkan sekolah yang gagal. Hal ini menunjukkan bahwa guru
menanamkan pembelajaran nyata dan bukan hanya menguji keterampilan tes dalam
menanggapi rating yang gagal.
9. Fakta bahwa saya tidak menemukan bukti mengenai jenis perilaku strategis yang ditemui
dalam berbagai konteks yang serupa menunjukkan bahwa dengan menundukkan
sekolah untuk menutup pengawasan, inspektur dapat memainkan peran dalam
membatasi kegiatan distortif tersebut.
10.Berbeda dengan temuan dari Heckman, Smith dan Taber (1996), yang menemukan
bukti bahwa birokrat tampaknya memanjakan preferensinya sendiri (‘liberal’), penulis
menemukan bahwa inspektur muncul untuk melakukan pekerjaan yang masuk akal.
Salah satu alasan untuk perbedaan tersebut adalah Mungkin bahwa tidak seperti dalam
5
pengaturan Heckman et al, di dalam penelitian ini tindakan inspektur terbuka untuk
pengawasan publik sebagai laporan inspeksi yang berada di ranah publik. Hal ini dapat
membantu memastikan bahwa keputusan birokrasi memiliki kualitas yang cukup tinggi
untuk dapat melewati ‘tes pengawasan publik’.
6