Ben Olken Universitas Harvard dan J-PAL 2...• Definisi-definisi: – Hasil (Y): Hasil yang mungkin...

52
www.povertyactionlab.org Mengapa Melakukan Randomisasi? Ben Olken Universitas Harvard dan J-PAL

Transcript of Ben Olken Universitas Harvard dan J-PAL 2...• Definisi-definisi: – Hasil (Y): Hasil yang mungkin...

www.povertyactionlab.org

Mengapa Melakukan Randomisasi?

Ben OlkenUniversitas Harvard dan J-PAL

Agenda

I. Permasalahan dalam evaluasi programII. Contoh: suplemen zat besi di Jawa TengahIII. Percobaan teracak IV. Kelebihan dan keterbatasan percobaanV. Seberapa jauh Anda bisa salah: kampanye

“Vote 2002” VI. Kesimpulan

Apakah yang dimaksud dengan Evaluasi Program atau Evaluasi Dampak?

• Evaluasi Program adalah sekumpulan cara yang digunakan untuk menentukan apakah suatu tindakan/ upaya perlakuan atau intervensi ‘berhasil’.

• Contoh: – Apakah pemberian beasiswa dapat meningkatkan kehadiran di

sekolah? – Apakah mengaudit proyek-proyek pembangunan jalan dapat

mengurangi tingkat korupsi?– Apakah pemakaian kelambu dapat mencegah penyakit malaria?

Susunan dasar untuk evaluasi program

• Bagaimana kita menjawab pertanyaan-pertanyaan tersebut?

• Kuncinya adalah dengan menetapkan kontrafaktual.– Suatu Kontrafaktual didefinisikan sebagai “apa yang akan terjadi

apabila tidak ada tindakan/ upaya perbaikan”.

– Kontrafaktual yang sebenarnya tidak dapat diamati – kita tak pernah tahu apa yang akan dialami oleh kelompok yang mendapatkan upaya perbaikan apabila mereka tidak mendapatkan upaya perbaikan, karena mereka telah mendapatkan upaya perbaikan.

– Tujuan utama dari semua metode evaluasi program/dampak adalah untuk menciptakan atau “meniru” kontrafaktual dengan menggunakan beberapa jenis kelompok kontrol

Susunan dasar untuk evaluasi program

• Definisi-definisi: – Hasil (Y): Hasil yang mungkin dipengaruhi oleh tindakan/upaya

perbaikan– Diberi Tindakan (T): Kelompok yang dipengaruhi program– Kontrol (C): Kelompok yang tidak terpengaruh program

• Asumsi utama :– Bila tidak dilakukan upaya perbaikan, maka hasilnya akan sama antara

kelompok yand diuji coba dan kelompok kontrol – Atau, dengan kata lain – kelompok kontrol adalah kontrafaktual

• Maka dampak dari upaya perbaikan itu adalah:– DAMPAK = HASIL (diberi tindakan) – HASIL (kontrol)

Bias Seleksi

• Ingat asumsi utama : – Apabila upaya perbaikan tidak dilakukan, maka hasilnya akan sama

antara kelompok yang mendapatkan upaya perbaikan dan kelompok kontrol

• Apa yang terjadi bila ada penyimpangan dalam asumsi tsb?– contoh, bagaimana jika ada faktor-faktor lain yang tak teramati yang

mungkin mempengaruhi unit-unit yang mendapat upaya perbaikan, namun tidak mempengaruhi unit-unit kontrol?

– faktor-faktor yang tak teramati ini kami sebut sebagai “bias seleksi”. Keberadaan bias seleksi ini tidak terkendali dalam penelitian yang bersifat pengamatan.

– Bila terdapat bias seleksi, maka Anda akan mendapat jawaban yang salah!

• Jawaban = Dampak upaya perbaikan + Bias Seleksi– Bila bias seleksi positif, maka penelitian yang bersifat pengamatan

akan menyatakan dampak upaya perbaikan secara berlebihan; bila negatif, dampak tersebut akan ternyatakan secara tidak memadai.

Contoh-Contoh bias seleksi

• Di dunia nyata, bagaimanakah wujud bias seleksi?• Beberapa contoh bias seleksi:

– Pangan bersubsidi. Masyarakat yang mendapat subsidi makanan (misal: Raskin) lebih miskin daripada mereka yang tidak. Apakah Raskin menjadikan mereka miskin?

– Sekolah. Masyarakat yang menyelesaikan pendidikan jenjang menengahnya berpenghasilan lebih banyak dibandingkan mereka yang keluar sebelum lulus sekolah menengah. Apakah ini pengaruh dari bersekolah? Atau karena mereka yang lebih cerdas mendapat lebih banyak pendidikan? Atau kombinasi di antara keduanya?

– Jalanan. Desa-desa yang mendapat pembangunan jalan dari pemerintah menunjukkan peningkatan dalam penghasilan pertanian. Apakah pembanguan jalan berdampak pada perubahan penghasilan? Atau apakah pemerintah membangun jalan di lokasi-lokasi yang ‘strategis’?

Dua jenis evaluasi dampak1. Evaluasi Teracak:

– Menggunakan undian– misal, lempar koin – untuk menentukan siapa yang masuk dalam kelompok tindakan/ yang mendapatkan upaya perbaikan & siapa yang masuk dalam kelompok kontrol.

– Karena perbedaan antara dua kelompok hanya pada hasil lempar koin, kita tahu bahwa kelompok kontrol memberikan kontrafaktual yang baik dan tidak ada bias seleksi.

Dikenal pula dengan sebutan:• Penelitian Penempatan Teracak• Pengujian Lapangan Teracak• Eksperimen Sosial• Eksperimen Terkontrol Teracak

Jenis-Jenis Metode Evaluasi Dampak (Lanjutan)

2. Metode Non-Eksperimental atau Kuasi-Eksperimental – Metode ini menggunakan pendekatan lain untuk menciptakan

sebuah kelompok kontrol dengan bias seleksi minimum • Contoh:

– Perbedaan Sederhana• Bandingkan hasil dari kelompok tindakan dan kelompok kontrol, di mana

kelompok kontrol tak terpapar pada program karena alasan-alasan eksogen – Perbedaan-dalam-perbedaan

• Bandingkan perubahan dari waktu ke waktu antara kelompok tindakan dan kelompok kontrol

– Penjodohan Statistik• Mengidentifikasi kelompok kontrol berdasarkan faktor-faktor yang tampak

dalam pengamatan– Variabel-variabel Tambahan

• Memprediksi upaya perbaikan sebagai fungsi variabel yang tidak secara langsung berdampak pada hasil yang diminati

• Presentasi ini difokuskan pada metode-metode teracak

www.povertyactionlab.org

II – CONTOH: SUPLEMEN ZAT BESI DI JAWA TENGAH

Contoh: suplemen zat besi di Jawa

• Latar belakang:– Anemia (kekurangan zat besi) menyebabkan kurangnya energi dan

menurunkan kemampuan orang untuk bekerja– Masalah ini bisa jadi parah di wilayah-wilayah pertanian di mana

masyarakat biasanya makan makanan yang tak diperkaya dengan zat tambahan

• Program: – Program percontohan pengayaan zat besi di Purworejo, Jawa Tengah– Tenaga kesehatan mendatangi rumah tangga dan memotivasi mereka

untuk mengonsumsi pil zat besi satu kali per minggu

• Pertanyaan: apakah program ini memperbaiki kesehatan, meningkatkan kemampuan kerja, dan mengurangi kemiskinan?

waktu

Penghasilan bulanan (Rp100.000)

2002

7

9

2003PROGRAM

(diamati)

(diamati)

Inikah dampak programnya?

Belum tentu!

Apakah dampak programnya?

waktu2002 2003

(diamati)

(apa yang akan terjadi jika tak ada program?)

Kita perlu mengetahui apa yang akan terjadi jika program tidak dilaksanakan

9

7

Penghasilan bulanan (Rp100.000)

waktu2002 2003

(diamati)

X(tidak diamati)

9

7

Dampak: 9 – X

(Apa yang akan terjadi jika tak ada program?)

Kita perlu mengetahui apa yang akan terjadi jika program tidak dilaksanakan

Penghasilan bulanan(Rp100.000)

waktu2002

7

9

2003

(Diamati di antara penerima manfaat)

(Diamati dalam kelompok kontrol)7.9

Dampak: 9 – 7.9 = 1.1

Gagasan: Gunakan kelompok kontrol untuk memperkirakan X

Penghasilan bulanan (Rp100.000)

Apa yang membuat sebuah kelompok kontrol baik/ buruk?

• Apabila terdapat perbedaan antara kelompok peserta dan bukan-peserta

– Misalkan, suplemen zat besi hanya diberikan kepada rumah tangga yang berada dekat Puskesmas

– Dalam hal ini. kelompok yang mendapatkan tindakan tinggal dekat Puskesmas sedangkan kelompok kontrol tinggal jauh dari Puskesmas

Hal ini dapat membiaskan perbandingan …– Rumah tangga itu mungkin berada di wilayah-wilayah

sejahtera, dan mungkin penghasilan untuk rumah tangga tersebut telah meningkat, bahkan tanpa adanya program

Inilah satu contoh “bias seleksi”

waktu2002 2003

Bias Seleksi

Kelompok TindakanPenghasilan bulanan (Rp100.000)

Dampak sesungguhnya: 9 –7.9 = 1.1X (Apa yang akan terjadi bila tak ada program?)

Kelompok Kontrol

waktu2002 2003

Bias Seleksi

Kelompok TindakanPenghasilan bulanan (Rp100.000)

Dampak yang anda perkirakan menggunakan kelompok kontrol yang ‘salah’: 9 – 7 = 2

X

Kelompok Kontrol

Satu solusi … evaluasi teracak

• Dalam hal ini, mereka menentukan rumah tangga mana yang menerima suplemen zat besi, dan mana yang tidak, melalui undian

• Hal ini menciptakan suatu kelompok pembanding yang secara sistematis tidak berbeda dari para peserta – Yaitu,satu kelompok yang tidak mengalami bias seleksi

• Jadi, kelompok kontrol tampak mirip dengan kelompok tindakan, hanya mereka tidak mendapatkan upaya perbaikan

waktu2002 2003

Eksperimen Teracak

Kelompok TindakanPenghasilan bulanan(Rp100.000)

Dampak yang Anda perkirakan jika menggunakan kelompok kontrol yang salah : 9 – 7 = 2

X

Kelompok Kontrol

Dampak sesungguhnya: 9 – 7.9 =1.1

Contoh: Hasil dari penelitian Purworejo

9.36

6.6

7.91

5.5

0

2

4

6

8

10

Laki-laki Perempuan

peng

hasi

lan

Bul

anan

Rp

(100

,000

)

TindakanKontrol

www.povertyactionlab.org

III – APA YANG DIMAKSUD DENGAN EVALUASI

TERACAK ITU SEBENARNYA?

Ketentuan-ketentuan DasarDimulai dengan hal sederhana: • Ambil sampel dari calon peserta program• Secara acak masukkan mereka ke dalam:

– Kelompok Tindakan – mendapatkan upaya perbaikan– Kelompok Kontrol – tidak diperbolehkan untuk mendapatkan upaya

perbaikan (selama masa evaluasi)

• Acak berarti bahwa penentuan suatu kelompok untuk mendapatkan upaya perbaikan atau tidak dilakukan melalui undian:– Dapat diundi lewat komputer– Dapat diundi langsung di tengah masyarakat

• Catatan: penetapan acak terhadap kelompok tindakan dan kelompok kontrol tidak sama dengan pengambilan sampel secara acak

Mengapa penempatan secara acak dapat berhasil?

• Mengapa penempatan secara acak terhadap kelompok tindakan dan kelompok kontrol dapat menghasilkan kontrafaktual yang baik?

• Karena adanya hukum jumlah besar (law of large numbers) …– Dapatkan 200 orang dan kemudian pisahkan mereka secara acak ke dalam

dua kelompok yang masing-masing terdiri dari 100 orang – Dua kelompok memiliki rata-rata tinggi dan berat yang sama– Ini berhasil untuk masyarakat, anak sekolah, perusahaan, sekolah,

kecamatan …– (tidak berhasil apabila Anda hanya memiliki 10 unit yang akan diacak)

• Maka…– Apabila tidak ada upaya perbaikan, kedua kelompok akan sama– Perbedaan satu-satunya antara kelompok tindakan dan kelompok kontrol

adalah dampak upaya perbaikan!

Persiapan Dasar suatu Evaluasi AcakPopulasi Sasaran

Peserta Potensial

Sampel Evaluasi

Populasi Sasaran

Peserta Potensial

Sampel Evaluasi

Penempatan Acak

KelompokTindakan

KelompokKontrol

KelompokTindakan

KelompokKontrol

Peserta hadir Peserta tak hadirBerdasarkan Orr (1999)

Langkah-langkah utama dalam melakukan eksperimen teracak

1. pada kelompok tindakan atau kelompok kontrol2. Rancang penelitiannya dengan seksama

– Apa masalahnya? Apa pertanyaan kunci yang harus dijawab? – Kebijakan apa saja yang mungkin dibuat untuk mengatasi masalah tsb?

3. Kumpulkan data dasar dan secara acak tempatkan orang-orang Verifikasikan bahwa penempatan itu nampak acak

4. Pantau proses sehingga integritas eksperimen tidak diragukan

5. Kumpulkan data lanjutan baik untuk kelompok tindakan maupun kelompok kontrol

6. Perkirakan dampak program dengan membandingkan hasil rata-rata dari kelompok tindakan vs kelompok kontrol

7. Lakukan penilaian apakah dampak program signifikansecara statistik maupun dalam prakteknya

Beberapa variasi atas ketentuan dasar

• Melakukan penempatan ke beberapa kelompok tindakan

• Melakukan penempatan ke dalam unit-unit selain dari individu atau rumahtangga– Pusat Kesehatan– Sekolah– Pemerintahan Daerah– Desa

• Faktor-faktor penting :– Apa unit pengambil keputusannya?– Pada tingkat mana data dapat dikumpulkan?

www.povertyactionlab.org

IV – KELEBIHAN DAN KEKURANGAN DARI EVALUASI

TERACAK

Validitas

• Dalam menilai setiap penelitian, ada dua jenis masalah yang harus dipikirkan:– Validitas Internal: berhubungan dengan kemampuan untuk

menarik kesimpulan kausal, misalnya, dapatkah kita mengaitkan perkiraan dampak dengan program, dan bukan dengan hal lainnya?

– Validitas Eksternal: berhubungan dengan kemampuan untuk melakukan generalisasi terhadap situasi menarik lainnya, yaitu dapatkah kita mengeneralisasikan perkiraan dampak dari program ini pada masyarakat, waktu, negara lain, dst.?

Kelebihan Utama Pengacakan

• Jauh lebih kuat dalam hal Validitas Internal: – Tidak ada bias seleksi

tidak banyak keraguan bahwa perbedaan yang tampak di antara kelompok tindakan dan kelompok kontrol memang disebabkan oleh program Anda

Kelebihan-kelebihan lain dari eksperimen

• Dibandingkan dengan hasil dari penelitian-penelitian non-eksperimental, hasil-hasil dari eksperimen bersifat:

– Tidak terlalu tunduk pada perdebatan metodologis– Lebih mudah untuk disampaikan– Memiliki kemungkinan yang lebih besar untuk meyakinkan

penyokong dana program dan/ atau pembuat kebijakan

Kekurangan-kekurangan dari Eksperimen

• Meskipun eksperimen-eksperimen memiliki kelebihan metodologis yang besar, terdapat berbagai ancaman terhadap validitas eksperimen. Sebagai contoh,– Validitas Internal

(misalnya Dampak Hawthorne, survei yang tidak mendapat tanggapan, ketidakhadiran peserta, persilangan, bias durasi, dsb.)

– Validitas Eksternal(misalnya, apakah hasil-hasilnya dapat digeneralisasikan terhadap populasi yang diamati?)

• Penting diketahui bahwa beberapa ancaman tersebut juga mempengaruhi validitas dari penelitian-penelitian non-eksperimental

Kekurangan-kekurangan lain dari eksperimen

• Mengukur dampak dari penawaran untuk berpartisipasi dalam program– Tergantung pada rancangannya, dimungkinkan untuk

memahami mekanisme yang mendasari intervensi.

• Biaya (meskipun perlu mempertimbangkan biaya untuk mendapatkan jawaban yang keliru dan biaya-biaya yang lain)

• Ekuilibrium parsial

Kekurangan-kekurangan lain dari Eksperimen

• Masalah Etika– Sebagian besar program dijatahkan karena kurangnya sumber

daya– Proses pemilihan acak merupakan cara yang “adil” untuk

mengalokasikan sumber daya.– Mungkin ada baiknya juga menghapus unsur kebijaksanaan

dalam pengalokasian karena sebab-sebab lain (misalnya, mencegah favoritisme)

– Masuk-bertahap atau proyek percontohan secara alami memberi ruang pada randomisasi

– Mengeksploitasi proyek percontohan atau sisipan oleh sebab keterbatasan anggaran

www.povertyactionlab.org

V –SEBERAPA JAUH ANDA BISA SALAH: KAMPANYE VOTE 2002

Kasus 1 – Kampanye “Vote 2002”

• Intervensi yang dirancang untuk meningkatkan tingkat partisipasi pemilih dalam pemilihan umum di A.S. pada tahun 2002

• Panggilan telepon kepada ~60.000 orang• Hanya ~35.000 orang yang berhasil dihubungi• Pertanyaan utama: Apakah kampanye tersebut memiliki

dampak positif terhadap tingkat partisipasi pemilih?– 5 metode digunakan untuk memperkirakan dampak

Metode 1-3

• Berdasarkan perbandingan orang-orang yang berhasil dihubungi dan yang tidak berhasil dihubungi :– Metode 1: selisih dalam tingkat partisipasi pemilih,

(tingkat partisipasi pemilih)berhasil dihubungi – (tingkat partisipasi pemilih)tidak berhasil dihubungi

– Metode 2: Regresi berganda yang mengendalikan beberapa perbedaan di antara kedua kelompok

– Metode 3: Metode 2, namun juga mengendalikan perbedaan perilaku di antara kedua kelompok dalam pemilihan umum yang telah lalu

Perkiraan dampak dengan menggunakan Metode 1-3

Perkiraan Dampak

Metode 1 10.8 pp *

Metode 2 6.1 pp *

Metode 3 4.5 pp *

pp=percentage point (angka presentase); *: secara statistik signifikan pada tingkat 5%

Metode 1-3

Apakah ada dari perkiraan-perkiraan dampak itu yang mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002”?

Yang Berhasil Dihubungi vs. Yang Tidak Berhasil Dihubungi

Berhasil dihubungi

Tidak berhasil dihubungi

Perbedaan

Perempuan 56.2% 53.8% 2.4 pp*Baru terdaftar 7.3% 9.6% -2.3 pp*Dari Iowa 54.7% 46.7% 8.0 pp*

Memberikan suara di thn 2000

71.7% 63.3% 8.3 pp*

Memberikan suara pada di thn 1998

46.6% 37.6% 9.0 pp*

pp= angka presentase *: secara statistik signifikan pada tingkat 5%

Metode 4: Penjodohan

• Terdapat data yang sama tentang 2.000.000 orang

• Pilih sebagai kelompok pembanding suatu sub-kelompok dari 2.000.000 orang yang sedapat mungkin mirip dengan kelompok yang berhasil dihubungi

• Prosedur statistik: penjodohan

• Untuk memperkirakan dampak, bandingkan tingkat partisipasi pemilih antara kelompok yang berhasil dihubungi dengan kelompok pembanding

Ilustrasi penjodohan

Sumber: Arceneaux, Gerber, dan Green (2004)

Perkiraan Dampak dengan Menggunakan Penjodohan

Perkiraan Dampak

Penjodohan pada 4 kovariat 3.7 pp *

Penjodohan pada 6 kovariat 3.0 pp *

Penjodohan pada semua kovariat 2.8 pp *

pp=angka presentase; *: secara statistik signifikan pada tingkat 5%

Metode 4: Penjodohan

• Apakah perkiraan dampak ini mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002?

• Kunci: Kedua kelompok itu harus ekuivalen dalam hal karakteristik-karakteristik yang dapat diamati yang digunakan untuk melakukan penjodohan.

Namun bagaimana dengan karakteristik-karakteristik yang tidak teramati?

Metode 5: Eksperimen Teracak• Ternyata 60.000 orang tersebut dipilih secara acak dari

populasi sebesar 2.060.000 orang• Oleh karena itu, upaya perbaikan ditetapkan secara

acak pada dua kelompok: – Kelompok Tindakan (60.000 orang yang ditelepon)– Kelompok Kontrol (2.000.000 orang yang tidak ditelepon)

• Untuk memperkirakan dampak, bandingkan tingkat partisipasi pemilih antara kelompok tindakan dan kelompok kontrol– Lakukan penyesuaian statistik untuk mengatasi kenyataan

bahwa tidak semua orang dalam kelompok tindakan berhasil dihubungi

Metode 5: Eksperimen Teracak

• Perkiraan dampak: 0.4%, secara statistik tidak signifikan

• Apakah perkiraan dampak ini mungkin merupakan dampak sesungguhnya dari kampanye “Vote 2002”?

• Kunci: kelompok tindakan dan kelompok kontrol harus ekuivalen baik berkenaan dengan karakteristik-karakteristik yang dapat diamati maupun yang tidak dapat diamati

• Karenanya, setiap perbedaan dalam hasil akhir dapat dikaitkan dengan kampanye Vote 2002

Tabel Ringkasan

Metode Perkiraan Dampak

1 – Perbedaan Sederhana 10.8 pp *

2 – Regresi Berganda 6.1 pp *

3 – Regresi Berganda dengan data panel

4.5 pp *

4 – Penjodohan 2.8 pp *

5 – Eksperimen Teracak 0.4 pp

VI - KESIMPULAN

Kesimpulan• Kebijakan publik yang baik membutuhkan pengetahuan

akan dampak kausal.• Dampak kausal dapat diperkirakan hanya apabila kita

memiliki kontrafaktual yang baik.• Apabila tidak ada kontrafaktual yang baik, maka analisis

akan terkontaminasi dengan bias seleksi.• Berhati-hatilah dengan klaim kausal yang berasal dari

penelitian-penelitian yang bersifat pengamatan.• Randomisasi menawarkan solusi untuk menghasilkan

kontrafaktual yang baik.

Kesimpulan• Apabila dirancang dan dijalankan secara benar, maka

eksperimen sosial akan memberikan penilaian yang paling dapat dipercaya atas dampak dari suatu program

• Hasil-hasil dari eksperimen sosial mudah dipahami dan dan tidak akan terlalu menjadi obyek keberatan-keberatan metodologis

• Kredibilitas + Kemudahan => lebih mungkin untuk meyakinkan para pembuat kebijakan serta peyokong dana tentang efektivitas (atau kurang efektifnya) suatu program

Kesimpulan (lanjutan)• Namun demikian, kelebihan-kelebihan tersebut hanya

akan didapatkan apabila eksperimen sosial dirancang serta dilaksanakan dengan semestinya.

• Harus menilai validitas eksperimen dengan cara yang sama seperti ketika kita menilai validitas penelitian lain mana pun

• Harus mengetahui kekurangan-kekurangan eksperimen

SELESAI