Evaluasi Kinerja Yang Subjektif Di Sektor Publik - Bukti Dari Inspeksi Sekolah

I. PENDAHULUAN :

Dalam usaha untuk membuat organisasi publik yang lebih efisien, pemerintah di seluruh

dunia memanfaatkan sasaran kinerja yang ‘keras (hard)’ untuk mengevaluasi kualitas

pelayanan. Contohnya skor tes siswa untuk sektor pendidikan di AS, Inggris dan Chili (lihat

survey oleh Figlio dan Loeb, 2011) dan waktu tunggu di rumah sakit dalam sistem

pelayanan kesehatan masyarakat di Inggris (Besley, Bevan dan Buchardi, 2008; Propper et

al, 2008). Akuntabilitas yang keras atau pengukuran kinerja yang objektif tersebut memiliki

memiliki manfaat transparansi tetapi juga kelemahan potensial, yaitu dapat menyebabkan

perilaku gaming dalam lingkungan di mana insentif hanya berfokus pada satu dimensi dari

hasil.

Di sisi lain, evaluasi kinerja subyektif “mengukur apa yang penting”, jika evaluator dapat

menggabungkan informasi keras dan lunak untuk mengukur hasilnya. Namun, sistem di

mana evaluator diperbolehkan untuk melakukan penilaiannya sendiri, daripada mengikuti

aturan keputusan formal, menimbulkan kekhawatiran baru. Sebagai contoh, hasil dari

literatur teoritis menekankan “aktivitas yang berpengaruh” dan “pilih kasih” (Milgrom dan

Roberts 1988, Prendergast dan Topel 1996), yang membuat pengukuran subjektif “dapat

disuap” (Dixit, 2002). Bukti empiris dari efektivitas evaluasi subyektif masih belum kuat.

Sebagaimana dicatat oleh Prendergast (1999, p.33), literatur ekonomi sebagian besar

berfokus pada "output yang mudah diamati dari pekerja, yang merupakan sebagian kecil

dari populasi".

Tulisan ini berusaha untuk menjembatani kesenjangan dengan mengevaluasi secara empiris

evaluasi kinerja subjektif untuk sekolah. Lokasinya adalah sistem pendidikan umum Inggris,

di mana inspektur independen melakukan kunjungan, mengawasi dan melaporkan tentang

kualitas sekolah. Selain itu, sekolah yang dinilai “gagal” mungkin dikenakan sanksi, seperti

inspeksi yang lebih sering dan intensif. Inspektur menggabungkan metrik keras, seperti skor

tes, dengan yang lebih lembut, seperti observasi pengajaran di kelas, dalam rangka untuk

melakukan penilaian tentang kualitas sekolah. Hampir tidak ada bukti empiris mengenai

apakah sistem seperti ini untuk sektor pendidikan berfungsi dalam prakteknya.

Penulis memberikan bukti perihal efektivitas dari evaluasi kinerja subjektif yangmengikuti

dua dimensi berikut. Pertama, apakah peringkat dari inspektur memberikan informasi

tambahan pada kualitas sekolah, melebihi yang sudah diketahui publik ? Uji validitas ini

diimplementasikan sebagai berikut : penulis bertanya apakah peringkat inspeksi

berhubungan dengan dasari pengukuran sekolah yang berkualitas – berasal dari survei

siswa, laporan cara mengajar guru, serta kepuasan orangtua - tergantung pada karakteristik

sekolah yang diamati seperti peringkat nilai ujian dan proporsi siswa yang memenuhi syarat

untuk makan siang gratis.

Kedua, penulis memeriksa apakah rating inspeksi yang gagal menyebabkan keuntungan

berikutnya dalam skor tes siswa. Mengidentifikasi efek dari rating gagal pada nilai tes adalah

kendala karena jenis masalah pemulihan rata-rata (mean reversion) yang ditemui dalam

literatur tentang evaluasi program pasar tenaga kerja (lihat Ashenfelter, 1978; Heckman,

1

Lalonde dan Smith, 1999). Hal ini karena tugas untuk pemulihan kegagalan, setidaknya

sebagian didasarkan pada realisasi masa lalu dari variabel hasil, skor tes. Ancaman untuk

mengidentifikasi adalah bahwa kinerja yang buruk sebelum inspeksi hanya karena nasib

buruk dan bahwa tes skor di sekolah yang gagal akan meningkat, bahkan tanpa adanya

inspeksi gagal. Setiap strategi yang kredibel harus mengatasi kelemahan tersebut.

Penelitian ini memanfaatkan ciri rancangan sistem pengujian di Inggris untuk menilai efek

penyebab dari inspeksi yang gagal. Sebagaimana dijelaskan secara rinci di bawah, tes

untuk siswa Tahun 6 (umur 11) di Inggris yang diberikan pada minggu kedua bulan Mei

setiap tahun. Tes ini ditandai secara eksternal, dan hasilnya diberikan ke sekolah-sekolah

dan orang tua pada pertengahan Juli. Jeda singkat antara Mei dan Juli memungkinkan

penulis untuk mengatasi masalah pemulihan rata-rata (mean reversion) : sekolah yang

gagal pada bulan Juni adalah gagal setelah tes pada bulan Mei tapi sebelum inspektur

mengetahui hasil dari test. Dengan membandingkan sekolah yang gagal di awal tahun

akademik - September, katakanlah - dengan sekolah gagal di Juni penulis dapat

mengisolasi mean reversion dari inspeksi gagal.

Temuan dari penelitian ini adalah sebagai berikut. Apakah peringkat inspeksi berkorelasi

dengan laporan siswa (dan orang tua) dari praktek sekolah, bukti-bukti menunjukkan bahwa

peringkat inspeksi yang sangat terkait dengan survei pengukuran kualitas sekolah. Sebagai

contoh, asosiasi antara peringkat inspeksi dan survei siswa, laporan cara mengajar guru

secara ekonomi berguna dan secara statistik signifikan, bahkan setelah pengkondisian atas

peringkat tes sekolah, proporsi siswa yang memenuhi syarat untuk makan siang gratis dan

karakteristik sekolah dan siswa lainnya. Hasil ini menyiratkan bahwa siswa yang terdaftar di

sekolah dengan penilaian pemeriksaan yang lebih baik mengalami lingkungan di mana,

menurut laporan siswa sendiri, cara mengajar gurunya lebih unggul. Temuan yang serupa

atas ukuran lainnya dari kualitas sekolah, berasal dari tanggapan survei siswa dan orangtua,

termasuk kepuasan orangtua. Hasil ini menunjukkan bahwa peringkat pemeriksaan

memberikan informasi bagi pandangan “orang dalam” atas sekolah, tergantung pada ukuran

tradisional dari tribut sekolah.

Kontribusi utama dari penelitian ini adalah untuk memberikan evaluasi empiris perihal efekti

tas inspeksi sekolah. Meskipun negara-negara dengan inspeksi sekolah yang komprehensif

masih langka, ada beberapa indikasi yang menunjukkan minat untuk mengadopsinya

mengalami pertumbuhan. Mengingat bahwa inspeksi sistematis telah terjadi di Inggris sejak

awal tahun 1990-an, tampaknya agak mengejutkan bahwa belum ada evaluasi kuantitatif

perihal efektitasnya.

Selain literatur yang disebutkan sebelumnya atas evaluasi kinerja subjektif, penelitian ini

juga terkait dengan literatur kecil yang menyelidiki perilaku birokrasi. Misalnya, Heckman,

Smith dan Taber (1996) menunjukkan bahwa dalam konteks program pelatihan kerja

pekerja kasus, yang diperbolehkan untuk menggunakan penilaiannya sendiri dalam

mengalokasikan pelatihan, cenderung memanjakan preferensinya sendiri dengan

mendaftarkan pelamar yang paling diuntungkan dan paling dipekerjakan ke dalam program.

2

Akhirnya, tulisan ini juga memberikan kontribusi untuk literatur yang berkembang mengenai

mekanisme untuk meningkatkan pelayanan publik, khususnya bagi masyarakat miskin.

Sejumlah contoh ada dari pengaturan negara berkembang, termasuk Olken (2007).

II. KONTEKS KELEMBAGAAN :

Meskipun tidak ada akses bebas untuk masuk atau keluar dari sekolah, sistem sekolah di

Inggris tetap mengadopsi beberapa unsur penting yang menyerupai pasar. Secara khusus,

unsur pilihan sekolah dan anggaran sekolah terkait dengan tingkat pendaftaran. Setiap

sekolah memiliki dewan direksinya sendiri, yang terdiri dari perwakilan orangtua dan

perwakilan dari otoritas lokal serta komunitas lokal. Sekolah mengelola anggarannya sendiri

dan dewan direksi bertanggung jawab untuk mempekerjakan kepala sekolah, serta

mengevaluasi dan menetapkan gajinya secara tahunan. Ada kurikulum nasional dan

pengujian siswa terjadi pada usia 7, 11, 14, 16 dan 18. Nilai ujian diterbitkan dalam bentuk

tabel liga sekolah.

Sejak awal tahun 1990-an, semua sekolah negeri Inggris telah diperiksa oleh Office for

Standards in Education, atau Ofsted, merupakan lembaga pemerintah independen.

Sebagaimana dicatat oleh Johnson (2004), Ofsted memiliki tiga fungsi utama : (i)

memberikan umpan balik dan saran kepada kepala sekolah dan guru; (ii) memberikan

informasi kepada orang tua dan calon orang tua murid untuk membantu mereka dalam

proses pengambilan keputusan, dan (iii) mengidentifikasi sekolah yang mengalami

kelemahan yang serius.

Pemeriksaan telah berkembang sejak dibentuk dan untuk sekolah dasar, telah ada tiga

siklus inspeksi penuh sejak tahun 1995, setiap siklus berlangsung antara empat dan enam

tahun. Sekolah biasanya diperiksa sekali dalam setiap siklus. Meskipun sebagian ebsar

kategori penilaian dan aturan pengungkapan publik tidak berubah selama periode ini,

kerangka inspeksi, atau seperangkat aturan yang digunakan untuk sekolah-sekolah, telah

berkembang dari waktu ke waktu. Yang paling penting untuk penelitian ini, sampai dengan

Juli 2006 sekolah memiliki waktu berminggu-minggu, kadang-kadang berbulan-bulan, sejak

adanya pemberitahuan kapan pemeriksaan akan dilakukan. Sejak September 2006, periode

pemberitahuan tersebut secara drastis dikurangi, maksimal tiga hari dan tidak ada

pemberitahuan, di mana inspektur tiba di sekolah tanpa pemberitahuan.

Peringkat Ofsted dapat dipandang sebagai suatu proses dua tahap. Dalam tahap yang

pertama, inspektur membentuk penilaian sebelumnya tentang sekolah atas dasar data

‘keras’, yaitu nilai tes, dikombinasikan dengan karakteristik latar belakang yang digunakan

untuk mencocokkan sekolah dengan peer group-nya.

Tahap kedua melibatkan kunjungan ke sekolah, biasanya dengan dua atau lebih inspektur

yang berlangsung selama satu atau dua hari. Selama kunjungan ini inspektur

mengumpulkan bukti kualitatif pada kinerja dan cara mengajar di sekolah. Hal ini dapat

dilihat sebagai upaya untuk mengungkap heterogenitas yang tidak teramati, yang mungkin

dapat membantu menjelaskan mengapa kinerja sekolah secara relatif berada di bawah atau

3

di atas peer group-nya. Pedoman untuk inspektur menetapkan bahwa “setidaknya dua

pertiga dari waktu belajar di sekolah harus digunakan untuk pengamatan langsung proses

belajar dan mengajar, memeriksaan pekerjaan, penilaian dan catatan dari siswa, kemudian

berdiskusi dengan siswa (Ofsted, 2003, bagian 4)”. Inspektur menghabiskan sebagian besar

waktunya di sekolah pada pengamatan pelajaran, sehingga sebagian besar guru di sebuah

sekolah dasar yang diamati dan dinilai, setidaknya sekali. Peringkat guru secara individu

tidak diungkapkan ke sekolah, meskipun skor agregatnya diungkapkan. Bukti yang

dikumpulkan oleh inspektur selama kunjungan serta data kinerja tes membentuk dasar bukti

untuk laporan setiap sekolah, yang dirilis segera setelah pemeriksaan. Laporan inspeksi

setiap sekolah dapat di-download dari internet.

Unsur sanksi berasal dari kekuatan hukum otoritas pendidikan lokal untuk menunjuk sebuah

dewan direksi sekolah yang baru jika sekolah tersebut dianggap gagal oleh Ofsted. Pada

gilirannya, dewan direksi dapat memberhentikan kepala sekolah. Sekolah yang gagal juga

diinspeksi ulang dan dilakukan pengawasan yang lebih besar. Tidak ada hadiah langsung

untuk laporan yang baik atau luar biasa.

Perlu dicatat bahwa pemeriksaan sistem seperti di Inggris, meskipun tanpa unsur hukuman,

telah diterapkan di Selandia Baru dan Belanda untuk beberapa waktu. Swedia juga baru-

baru mengadopsi inspeksi sekolah.

III. BUKTI ATAS VALIDITAS PERINGKAT INSPEKSI :

Singkatnya, analisis ini menunjukkan bahwa peringkat inspeksi dapat membantu mendeteksi

cara mengajar guru yang baik dan buruk (atau kepuasan orangtua yang tinggi dan rendah)

di antara sekolah dengan peringkat tes yang sama dan komposisi sosial ekonomi dari siswa.

Hasilnya sangat konsisten untuk semua pengukuran siswa dan orangtua : peringkat inspeksi

yang dilakukan, memang menyampaikan informasi tentang kualitas sekolah melebihi

informasi yang sudah tersedia untuk publik, seperti skor tes, jenis sekolah, proporsi siswa

yang memenuhi syarat mendapatkan makan siang gratis, dan sebagainya Selain itu, hasil

regresi yang terpisah untuk masing-masing item membentuk skor komposit yang juga

menunjuk pada kesimpulan yang sama. Sebagai contoh, masing-masing dari enam item

yang membentuk cara mengajar guru menunjukkan nilai komposit bahwa hubungan dengan

pemeriksaan peringkat adalah negatif dan secara statistik signifikan. Yaitu, peringkat

inspeksi yang lebih baik dikaitkan dengan cara mengajar guru yang lebih baik pada enam

ukuran yang mendasarinya. Hal ini menyiratkan bahwa pengamatan bersyarat di sekolah

dan karakteristik siswa, siswa di sekolah dengan peringkat yang tinggi mengalami

lingkungan di mana guru lebih mungkin untuk: mengambil tindakan ketika seorang siswa

melanggar aturan; membuat siswa bekerja dalam kapasitas penuhnya, menjaga ketertiban

di kelas, seperangkat pekerjaan rumah, memeriksa pekerjaan rumah yang telah dilakukan

dan menilai pekerjaan siswa

IV.KESIMPULAN :

1. Analisis validitas : peringkat inspeksi sangat terkait dengan pengukuran-pengukuran yang

mendasari kualitas sekolah yang tidak diamati oleh inspektur, bahkan setelah

4

mensyaratkan karakteristik sekolah tradisional (seperti peringkat tes dan proporsi siswa

yang memenuhi syarat untuk makan siang gratis).

2. Hal ini menunjukkan bahwa inspektur menambah nilai dalam hal mengungkap beberapa

heterogenitas yang tidak teramati dalam kualitas sekolah.

3. Efek dari inspeksi yang gagal : siswa Tahun 6 (umur 11) sdi sekolah yang gagal

mendapatkan standar deviasi 0,12 pada skor relatif dari tes matematika nasional

terhadap siswa yang terdaftar di sekolah gagal. Efek pemulihan untuk Inggris adalah

keuntungan 0,08 dari standar penyimpangan.

4. Hasil ini kuat untuk metode estimasi yang berbeda : perbandingan sederhana pada hasil

pasca-pemulihan untuk kontrol dan pemulihan kelompok serta perbedaan-perbedaan

dalam model memberikan hasil yang sangat mirip.

5. Keseluruhan efek menutupi heterogenitas substansial dalam efek pemulihan. Perolehan

terbesar adalah untuk siswa dengan nilai sebelum (usia tujuh) tes Tahap Kunci 1. Dalam

kelompok ini, analisis regresi kuantil mengungkapkan bahwa siswa dengan nilai yang

lebih tinggi mendapatkanpaling banyak : siswa di kuartil bawah dari distribusi

kemampuan sebelumnya antara 0,1 dan 0,3 dari standar deviasi, dengan perkiraan efek

yang terus meningkat dari 0,1 untuk kuartil terendah hingga 0,3 untuk kuartil tertinggi.

Untuk Inggris, perkiraan untuk kisaran subkelompok ini antara 0,08 dan 0,18 dari standar

deviasi.

6. (Ini adalah efek yang sangat besar. Bandingkan dengan efekkualitas guru, Rivkin et al,

2005;.bersekolah dengan tingkat pencapaian yang lebih tinggi, Hastings et al, 2009, atau

sebuah sekolah dengan hak istimewa, Abdulkadiroglu et al, 2011.)

7. Temuan ini konsisten dengan pandangan bahwa anak-anak dengan orang tua

berpenghasilan rendahadalah yang paling diuntukan dengan adanya inspeksi.

8. Penulis tidak menemukan bukti yang menunjukkan bahwa sekolah mampu mendorong

kinerja tes dengan sistem gaming.

A. Pertama, ada sedikit bukti yang menunjukkan bahwa guru tidak termasuk siswa

berkemampuan rendah mengambil tes gabungan.

B. Kedua, bukti tidak mendukung gagasan bahwa guru menargetkan siswa pada margin

pencapaian tingkat kemahiran resmi (mencapai ‘level 4’ pada tes Tahap Kunci 2) dengan

mengorbankan siswa di atas atau di bawah ambang batas ini.

C. Ketiga, walaupun hasil tes semakin memudar dari waktu ke waktu, terdapat bukti yang

menunjukkan bahwa beberapa siswa memperoleh posisi terakhir ke jangka menengah,

bahkan setelah meninggalkan sekolah yang gagal. Hal ini menunjukkan bahwa guru

menanamkan pembelajaran nyata dan bukan hanya menguji keterampilan tes dalam

menanggapi rating yang gagal.

9. Fakta bahwa saya tidak menemukan bukti mengenai jenis perilaku strategis yang ditemui

dalam berbagai konteks yang serupa menunjukkan bahwa dengan menundukkan

sekolah untuk menutup pengawasan, inspektur dapat memainkan peran dalam

membatasi kegiatan distortif tersebut.

10.Berbeda dengan temuan dari Heckman, Smith dan Taber (1996), yang menemukan

bukti bahwa birokrat tampaknya memanjakan preferensinya sendiri (‘liberal’), penulis

menemukan bahwa inspektur muncul untuk melakukan pekerjaan yang masuk akal.

Salah satu alasan untuk perbedaan tersebut adalah Mungkin bahwa tidak seperti dalam

5

pengaturan Heckman et al, di dalam penelitian ini tindakan inspektur terbuka untuk

pengawasan publik sebagai laporan inspeksi yang berada di ranah publik. Hal ini dapat

membantu memastikan bahwa keputusan birokrasi memiliki kualitas yang cukup tinggi

untuk dapat melewati ‘tes pengawasan publik’.

6

Evaluasi Kinerja Yang Subjektif Di Sektor Publik - Bukti Dari Inspeksi Sekolah

Documents

Transcript of Evaluasi Kinerja Yang Subjektif Di Sektor Publik - Bukti Dari Inspeksi Sekolah