Studies and Education Indo

24
Penilaian dapat menjadi kekuatan yang kuat untuk mendukung pembelajaran dan mekanisme pemberdayaan individu (Broadfoot & Black, 2004 ). Penilaian formatif khususnya telah lazim dalam wacana pendidikan selama dekade terakhir, mengalihkan perhatian ke arah praktek penilaian yang membantu proses belajar dan mengajar (misalnya, Brookhart, 2011; Earl 2003 ). Ini, selain pengakuan penilaian sebagai tuas utama untuk mempromosikan pendidikan yang efektif, telah menyebabkan penilaian kelas menjadi pusat dari berbagai upaya perbaikan pendidikan. Dampak dari penilaian formatif terhadap prestasi belajar siswa telah banyak didokumentasikan ( Black & Wiliam, 1998; Hattie & Timperley, 2007; Wiliam, Lee, Harrison, & Black, 2004 ); mengarah ke pengakuan penilaian formatif sebagai faktor penentu efektivitas pendidikan baik di kelas dan tingkat sekolah (Teddlie & Reynolds, 2000 ). Selain itu, studi yang menyelidiki persepsi guru tentang penilaian menunjukkan bahwa mereka mendukung penilaian formatif; mengakui perannya dalam mendukung proses belajar mengajar (Brown, 2004; Kyriakides, 1997; Sach, 2012). Sejalan dengan penelitian internasional, serangkaian studi efektivitas, yang telah dilakukan dalam konteks Siprus, memberikan dukungan empiris untuk dampak offormative penilaian terhadap hasil belajar siswa (misalnya, Kyriakides, 2005; Kyriakides, Campbell, & Gagatsis, 2000; Creemers & Kyriakides 2008 ). Studi-studi ini telah menunjukkan bahwa guru sekolah dasar yang melakukan penilaian formatif untuk alasan yang lebih efektif dalam hal ofpromoting hasil belajar siswa (baik hasil kognitif dan afektif yang diperhitungkan) daripada mereka yang melakukan penilaian untuk alasan sumatif (Kyriakides 2005 ). Selain itu, telah ditemukan bahwa sekolah dengan kebijakan yang ditetapkan pada penilaian formatif lebih efektif daripada sekolah tanpa kebijakan penilaian (Creemers & Kyriakides 2008 ). Dengan cara ini, penilaian formatif di tingkat kelas dan sekolah kebijakan penilaian telah diidentifikasi sebagai faktor yang terkait dengan keuntungan prestasi siswa. Namun, meskipun hasil penelitian menunjukkan bahwa guru Siprus terus sikap positif terhadap penilaian formatif (Kyriakides 1997), Hanya sejumlah terbatas guru

description

jurnal studi dan evalusi

Transcript of Studies and Education Indo

Penilaian dapat menjadi kekuatan yang kuat untuk mendukung pembelajaran dan mekanisme pemberdayaan individu (Broadfoot & Black, 2004). Penilaian formatif khususnya telah lazim dalam wacana pendidikan selama dekade terakhir, mengalihkan perhatian ke arah praktek penilaian yang membantu proses belajar dan mengajar (misalnya,Brookhart, 2011; Earl 2003). Ini, selain pengakuan penilaian sebagai tuas utama untuk mempromosikan pendidikan yang efektif, telah menyebabkan penilaian kelas menjadi pusat dari berbagai upaya perbaikan pendidikan. Dampak dari penilaian formatif terhadap prestasi belajar siswa telah banyak didokumentasikan (Black & Wiliam, 1998; Hattie & Timperley, 2007; Wiliam, Lee, Harrison, & Black, 2004); mengarah ke pengakuan penilaian formatif sebagai faktor penentu efektivitas pendidikan baik di kelas dan tingkat sekolah (Teddlie & Reynolds, 2000). Selain itu, studi yang menyelidiki persepsi guru tentang penilaian menunjukkan bahwa mereka mendukung penilaian formatif; mengakui perannya dalam mendukung proses belajar mengajar (Brown, 2004; Kyriakides, 1997; Sach, 2012).Sejalan dengan penelitian internasional, serangkaian studi efektivitas, yang telah dilakukan dalam konteks Siprus, memberikan dukungan empiris untuk dampak offormative penilaian terhadap hasil belajar siswa (misalnya,Kyriakides, 2005; Kyriakides, Campbell, & Gagatsis, 2000; Creemers & Kyriakides 2008). Studi-studi ini telah menunjukkan bahwa guru sekolah dasar yang melakukan penilaian formatif untuk alasan yang lebih efektif dalam hal ofpromoting hasil belajar siswa (baik hasil kognitif dan afektif yang diperhitungkan) daripada mereka yang melakukan penilaian untuk alasan sumatif (Kyriakides 2005). Selain itu, telah ditemukan bahwa sekolah dengan kebijakan yang ditetapkan pada penilaian formatif lebih efektif daripada sekolah tanpa kebijakan penilaian (Creemers & Kyriakides 2008). Dengan cara ini, penilaian formatif di tingkat kelas dan sekolah kebijakan penilaian telah diidentifikasi sebagai faktor yang terkait dengan keuntungan prestasi siswa. Namun, meskipun hasil penelitian menunjukkan bahwa guru Siprus terus sikap positif terhadap penilaian formatif (Kyriakides 1997), Hanya sejumlah terbatas guru benar-benar menerapkan praktek-praktek tersebut dalam pengajaran mereka (Creemers, Kyriakides & Antoniou 2013). Temuan ini sejalan dengan penelitian internasional menunjukkan bahwa praktek penilaian kelas masih tampak hasil-berorientasi (Earl & Katz, 2000; Herman, Osmundson, Ayala, Schneider, & Timms, 2006; Lock & Munby 2000). Dalam konteks ini, ofresearch tubuh besar telah muncul di pendidikan guru dan pengembangan profesional dengan referensi khusus untuk penilaian (misalnya,Hitam, Harrison, Lee, Marshall, & Wiliam, 2002; Borko, Wolf, Simone, & Uchiyama, 2003; Hayward, Priestley, & Young, 2004; Marshall & Drummond, 2006; Poskitt & Taylor, 2007; Torrance & Pryor, 2001; Webb & Jones, 2009).Mengambil di atas menjadi pertimbangan, makalah ini mendukung pandangan bahwa guru keterampilan di setiap aspek dari proses penilaian harus dievaluasi dalam rangka untuk mengembangkan program-program pengembangan profesional yang sesuai dan cocok untuk mengatasi guru kebutuhan profesional dan prioritas untuk perbaikan dalam praktek penilaian mereka. Kesulitan dalam pelaksanaan yang efektif dari penilaian perlu diidentifikasi dan ditangani oleh para peneliti dan pembuat kebijakan, jika penilaian guru adalah untuk memenuhi janjinya (Baird, 2010). Secara khusus, tulisan ini menekankan perlunya pengembangan dan validasi instrumen pengukuran kemampuan penilaian guru. Alat ini harus sejalan dengan konsepsi saat mengajar dan penilaian yang efektif dan juga harus memungkinkan identifikasi kebutuhan khusus guru agar tindakan koreksi yang tepat untuk mengambil tempat. Secara khusus, penelitian ini difokuskan pada keterampilan guru dalam menilai siswa dalam matematika mengakui kebutuhan untuk penilaian yang selaras dan mampu mendukung konseptualisasi saat instruksi matematika yang efektif (Suurtamm, Koch, & Arden, 2010). Meskipun kerangka yang dikembangkan untuk mengukur keterampilan penilaian tidak subjek khusus, penelitian ini difokuskan pada satu subjek karena fakta bahwa dampak keterampilan penilaian terhadap hasil belajar siswa dalam matematika diperiksa.Menggambar pada penelitian tentang penilaian kelas dan teori perkembangan guru (Berliner, 1994; Dall'Alba & Sandberg 2006), Penelitian ini memiliki tiga tujuan utama. Pertama, kerangka mengukur kemampuan guru dalam penilaian diusulkan dan kuesioner guru berdasarkan kerangka kerja ini dikembangkan. Menggunakan model Rasch, validitas konstruk kuesioner diselidiki. Kedua, penelitian ini menguji apakah keterampilan guru dalam penilaian dapat berada pada skala yang sama dan apakah keterampilan ini dapat diklasifikasikan ke dalam tahap perkembangan. Ketiga, mengelompokkan keterampilan guru dalam tingkat kesulitan memiliki implikasi penting bagi pengembangan profesi guru, terutama jika klasifikasi ini dapat berhubungan dengan prestasi siswa, karena program pelatihan dapat dikembangkan untuk memenuhi kebutuhan guru dan prioritas untuk perbaikan dalam setiap tahap. Oleh karena itu, penelitian ini juga menyelidiki apakah guru ditemukan berada pada tahap yang lebih tinggi keterampilan penilaian yang lebih efektif dalam mempromosikan hasil belajar siswa dalam matematika.Sebuah kerangka kerja untuk menyelidiki keterampilan guru dalam penilaianUsaha-usaha sebelumnya untuk mendefinisikan apa yang guru harus tahu dan dapat melakukan dalam kaitannya dengan penilaian belum ditangani keterampilan penilaian secara sistematis (Brookhart 2011). Namun demikian, para peneliti telah lama diakui keterampilan penilaian sebagai elemen penting dari praktek mengajar yang efektif (Gullickson 1986; Schafer 1991). Akibatnya, berbagai daftar menguraikan kompetensi dasar penilaian telah dikembangkan (misalnya,Federasi Guru Amerika, Dewan Nasional Pengukuran dalam Pendidikan & Asosiasi Nasional Pendidikan [AFT / NCME / NEA], 1990; Schafer, 1991; Stiggins, 2009). Daftar ini menggambarkan kompetensi penilaian dalam kaitannya dengan standar umum praktek ofassessment tanpa memberikan rincian keterampilan khusus yang terlibat. Selain itu, daftar ini tidak terkait dengan latar belakang teoritis tertentu dan bukti empiris yang mendukung validitas mereka belum diberikan kepada setiap batas yang signifikan (Brookhart 2011).Setelah menyadari kebutuhan untuk kerangka kerja yang komprehensif berdasarkan pada keterampilan yang berkaitan dengan penilaian kelas yang dapat didefinisikan dan diukur, kerangka keterampilan penilaian guru diusulkan. Kerangka yang diusulkan memperhitungkan sifat dinamis dari penilaian dan dengan demikian keterampilan yang terkait dengan setiap fase dari proses penilaian diperiksa. Selain itu, keterampilan penilaian didefinisikan dan diukur dalam kaitannya dengan kemampuan guru untuk menggunakan berbagai teknik penilaian dalam mengukur berbagai jenis hasil belajar. Teknik penilaian tradisional serta alternatif yang dipertimbangkan, karena literatur mendukung teknik penggunaan kombinasi ofa ofassessment untuk menilai belajar siswa (Shepard, 2000; Suurtamm et al. 2010). Selain itu, kerangka pengukuran dikembangkan dalam bidang Efektivitas Pendidikan Penelitian (EER) diadopsi dan kedua karakteristik kuantitatif dan kualitatif dari proses penilaian yang diperhitungkan. Akhirnya, keterampilan guru dalam menggunakan hasil penilaian tidak hanya untuk sumatif, tetapi juga untuk tujuan formatif yang dipertimbangkan. Setiap aspek dari kerangka dijelaskan secara singkat di bawah ini.Fase utama dari proses penilaianPenilaian kelas sering disajikan dalam literatur sebagai siklus dibagi menjadi beberapa fase (misalnya,Birenbaum, 2007; Cerah & Joyner, 1998; Calfee & Masuda, 1997), Yang paling umum yang makhluk perencanaan, pengumpulan dan menafsirkan bukti-bukti, dan menggunakan hasil. Selain itu, aspek penting dan khas lain dari proses dibahas dalam literatur, seperti pembangunan alat penilaian (Brookhart, 1997; De Lange, 1993), Administrasi asesmen (Anderson, 2003; Shepard, 2007), Pencatatan informasi penilaian (Goldhaber & Smith, 2002; Kroeger & Cardy, 2006; Schmoker 2006) Dan hasil penilaian berkomunikasi (Anderson, 2003; Stiggins, 2004). Dalam rangka untuk mengukur keterampilan penilaian guru, penelitian ini memperhitungkan empat fase siklus penilaian (lihatGambar. 1). Meskipun fase utama dari proses penilaian yang dianggap sebagai salah satu dari tiga aspek atas dasar yang kerangka dikembangkan, ini tidak berarti pandangan penilaian sebagai langkah-demi-langkah Model yang 'dilakukan' oleh tenaga pengajar. Sebaliknya, kerangka kerja ini didasarkan pada pemikiran saat ini dalam penilaian yang memandangnya sebagai, berulang, proses dinamis berkelanjutan yang melibatkan guru dan pelajar dalam proses (Shepard, 2000; Gardner, Harlen, Hayward, Stobart, & Montgomery, 2010; Wiliam et al., 2004). Literatur juga menyoroti hubungan yang dinamis antara berbagai tahapan dari proses penilaian (Birenbaum, 2007; Black & Wiliam, 2009). Tanpa mengabaikan karakter berurutan ofthe empat fase yang terlibat dalam proses tersebut yang desain dan implementasi ofassessment, penelitian ini dianggap semua fase sebagai saling terkait dan saling dipertukarkan. Pembagian proses penilaian menjadi fase tertentu dilakukan untuk memastikan bahwa setiap aspek dari praktek penilaian diperhitungkan dalam mengukur kemampuan guru. Secara khusus, fase ini didasarkan pada asumsi bahwa guru yang efektif harus memastikan bahwa:a.instrumen penilaian yang tepat digunakan untuk mengumpulkan data yang valid dan reliabelb.prosedur yang tepat dalam mengelola instrumen ini diikutic.Data yang muncul dari penilaian dianalisis dan dicatat dalam cara yang efisien dan tanpa kehilangan informasi pentingd.Hasil penilaian dilaporkan kepada orang tua dan siswa untuk membantu mereka mengambil keputusan tentang cara untuk mempromosikan hasil belajar siswa.Perencanaan dan pembangunan alat penilaianFase ini meliputi keterampilan mengacu pada perencanaan dan desain penilaian serta pembangunan alat penilaian, karena ini diakui dalam literatur. Oleh karena itu, keterampilan termasuk keputusan penutup mengenai tujuan bahwa setiap mekanisme penilaian bertujuan untuk melayani (Brookhart, 2003; Gipps, 1994; Pellegrino, Chudowsky, & Glaser, 2001; Torrance & Pryor, 1998), Tujuan definisi oflearning terhadap yang siswa akan dinilai (Herman et al., 2006; Sadler, 1989) Serta pemilihan dan / atau pengembangan alat penilaian kualitas dengan cara yang maksud dan tujuan dari penilaian akan dicapai (Green & Mantz, 2002; Shepard, 2000).Administrasi instrumen penilaianTahap kedua meliputi keterampilan yang berhubungan dengan pelaksanaan penilaian. Keterampilan termasuk mengacu pada keputusan mengenai waktu penilaian, hubungan penilaian terhadap instruksi, dan peran guru dalam administrasi asesmen (Anderson, 2003; Black & Wiliam, 1998; Shepard, 2007).Merekam dan menganalisis dataFase ini mengacu pada keterampilan yang berhubungan dengan dokumentasi hasil penilaian (Goldhaber & Smith, 2002; Kroeger & Cardy, 2006; Schmoker 2006) Dan meminta informasi (Duschl & Gitomer, 1997; Schafer, 1991; Schmoker 2006) Serta bagaimana informasi ini digunakan (Stiggins & Dufour 2009)Hasil kepada siswa dan orang tua PelaporanTahap terakhir mengacu pada keterampilan yang berhubungan dengan komunikasi hasil penilaian untuk pengguna yang dimaksudkan. Oleh karena itu keterampilan termasuk dalam fase ini mengacu pada keputusan mengenai tujuan pelaporan (Guskey & Bailey, 2001; Harlen & James, 1997), Penonton kepada siapa hasil dilaporkan (Tingkat gin 2004) Dan instrumen yang digunakan untuk melaporkan data (Guskey & Bailey, 2001) Serta kualitas komunikasi guru dengan orang tua dan siswa (Tingkat gin 2004).Teknik penilaianTeknik penilaian memainkan peran penting dalam memastikan kualitas dan efektivitas ofassessment karena mereka biasanya memiliki pengaruh pada bagaimana dan apa yang siswa belajar. Memilih teknik penilaian tergantung pada target yang akan dinilai karena prestasi siswa dalam kaitannya dengan target tertentu dapat lebih tepat diukur dengan menggunakan teknik-teknik khusus (Gin Level, 1992). Sebagai contoh, penilaian yang valid kemampuan siswa dalam komunikasi lisan memerlukan penggunaan ofdifferent teknik penilaian lisan daripada penggunaan tes tertulis. Selain itu, penggunaan berbagai teknik memungkinkan siswa untuk menunjukkan berbagai jenis pembelajaran. Hal ini berlaku terutama dalam hal matematika sejak pandangan saat ini efektif tempat instruksi matematika penekanan pada kompleksitas matematika (Boaler 2008) Dan memerlukan guru untuk dapat menggunakan berbagai teknik untuk menilai pemahaman siswa konseptual serta problemsolving dan penalaran kemampuan mereka (Suurtamm et al. 2010). Dengan demikian, mengingat perkembangan ofalternative metode penilaian serta reconceptualisation metode tradisional yang ada (Green & Mantz, 2002; Shepard, 2000), Itu perlu untuk memeriksa keterampilan penilaian dalam kaitannya dengan empat jenis yang paling umum dari teknik penilaian: (a) penilaian tertulis, (b) penilaian lisan, (c) observasi dan (d) penilaian kinerja. Misalnya sehubungan dengan penilaian tertulis, itu diperiksa apakah jenis ofquestions (misalnya, pertanyaan tertulis langsung, pertanyaan pilihan ganda, cocok pertanyaan, diperpanjang pertanyaan tertulis) yang termasuk dalam tes tertulis yang dikembangkan oleh masing-masing guru. Berkenaan dengan observasi, frekuensi penggunaan penilaian lisan formal dan / atau informal untuk mengukur prestasi siswa dalam matematika diselidiki.Dimensi PengukuranDimensi yang digunakan untuk mengukur keterampilan guru dalam penilaian menarik perkembangan metodologis dan teoritis di bidang efektivitas pendidikan. Studi awal di bidang efektivitas pendidikan telah menunjukkan bahwa karakteristik kuantitatif penilaian guru yang terkait dengan prestasi belajar siswa (lihatScheerens & Bosker, 1997; Teddlie & Reynolds, 2000). Namun, studi terbaru menunjukkan bahwa qualitativecharacteristics penilaian guru juga harus diperhitungkan (misalnya,Moriyama & Heck, 2010; Kyriakides 2005). Dalam konteks ini, model dinamis efektivitas pendidikan dikembangkan dan kerangka pengukuran menggunakan kedua karakteristik kuantitatif dan kualitatif faktor efektivitas diusulkan (Creemers & Kyriakides 2008). Hal ini penting untuk menekankan bahwa penilaian guru termasuk dalam model dinamis sebagai faktor efektifitas di tingkat guru. Mengingat bahwa model dinamik mendapat dukungan empiris dari penelitian yang dilakukan di Siprus (misalnya,Creemers & Kyriakides, 2010; Creemers & Kyriakides,2008, 2009; Kyriakides, Creemers, dan Antoniou 2009) Dan internasional (misalnya,Panayiotou et al, 2013.; Kyriakides, Archambault, & Janosz 2013) Serta dari ulasan empiris dan teoritis (lihatHeck & Moriyama, 2010; Hofman, Hofman, & Gray, 2010; Sammons, 2009; Scheerens, 2013), Itu dianggap relevan dengan memperhitungkan kerangka yang diusulkan oleh model ini dalam mengukur keterampilan penilaian.Lima dimensi berikut digunakan dalam model dinamis untuk mengukur fungsi ofeach guru ofeffective karakteristik yang digunakan: (a) frekuensi, (b) fokus, (c) tahap, (d) kualitas dan (e) diferensiasi. Dimensi ini membantu kita menjelaskan dalam cara yang lebih baik fungsi masing-masing karakteristik guru yang efektif. Secara khusus, frekuensi adalah cara kuantitatif untuk mengukur karakteristik efektivitas fungsi ofeach, sedangkan empat lainnya dimensi memeriksa aspek kualitatif tersebut yang karakteristik. Dimensi tidak hanya penting dari perspektif pengukuran, tetapi juga, dan bahkan lebih, dari sudut pandang teoritis. Tindakan ofteachers terkait dengan karakteristik masing-masing dapat dipahami dari perspektif yang berbeda, dan tidak hanya dengan menempatkan penekanan pada jumlah kasus atau durasi waktu tindakan yang terjadi, dalam mengajar (Creemers et al., 2013). Selain itu, penggunaan dimensi pengukuran ini dapat membantu kita mengembangkan strategi untuk meningkatkan pengajaran dan penilaian karena umpan balik yang diberikan kepada guru bisa merujuk tidak hanya untuk kuantitatif, tetapi juga untuk karakteristik kualitatif pengajaran dan praktik penilaian. Sebuah deskripsi singkat dari lima dimensi yang diberikan di bawah ini. Pentingnya mengambil masing-masing dimensi memperhitungkan juga digambarkan di bawah dengan menjelaskan bagaimana faktor penilaian yang termasuk dalam model dinamis diukur.Frekuensi diukur dengan memperhitungkan jumlah tugas penilaian yang guru mengelola kepada siswa mereka serta seberapa sering penilaian berlangsung. Dimensi Pengukuran ini membantu kami mengidentifikasi pentingnya melekat pada penilaian oleh guru. Sisa empat dimensi meneliti karakteristik kualitatif penilaian kelas. Secara khusus, fokus diukur dengan melihat kemampuan guru untuk menggunakan cara yang berbeda untuk mengukur kemampuan siswa daripada hanya menggunakan satu teknik (Rao, Collins, & DiCarlo 2002). Hal ini juga penting untuk memeriksa apakah guru menggunakan informasi yang dia / dia mengumpulkan lebih dari satu tujuan (misalnya, mengidentifikasi kebutuhan siswa, melakukan evaluasi diri, mengadopsi / rencananya jangka panjang, menggunakan tugas evaluasi sebagai awal point untuk mengajar) (Black & Wiliam, 1998). Dimensi Tahap diukur dengan menyelidiki waktu di mana tugas-tugas penilaian berlangsung (misalnya, di awal, selama dan pada akhir pelajaran / unit pelajaran) dan selang waktu antara mengumpulkan informasi, merekam hasil, pelaporan hasil untuk siswa dan orang tua, dan menafsirkan dan menggunakan mereka untuk pelajaran perencanaan. Kualitas diukur dengan melihat sifat-sifat instrumen evaluasi yang digunakan oleh guru, seperti berbagai bentuk validitas, keandalan internal dan eksternal, kepraktisan dan sejauh mana instrumen menutupi isi pengajaran (Cronbach, 1990). Jenis umpan balik bahwa guru memberikan ke / nya siswa dan siswa dengan cara memanfaatkan umpan balik guru juga diperiksa. Akhirnya, diferensiasi diperiksa dalam kaitannya dengan sejauh mana guru menggunakan teknik yang berbeda untuk mengukur kebutuhan siswa dan / atau cara yang berbeda untuk memberikan umpan balik kepada kelompok siswa yang berbeda dengan memperhatikan latar belakang dan karakteristik pribadi.Gambar. 2menunjukkan kerangka teori yang digunakan dalam mengukur keterampilan penilaian guru. Secara khusus, masing-masing dari empat tahap penilaian didefinisikan atas dasar pengetahuan dan keterampilan yang terlibat di lima dimensi model dinamis dan dalam kaitannya dengan empat teknik penilaian yang paling umum penilaian.MetodologiDengan mempertimbangkan kerangka teoritis, kuesioner guru dikembangkan dan diberikan kepada sampel yang representatif dari 10 persen guru sekolah dasar Siprus pada awal tahun ajaran 2010-2011 (kuesioner tersedia atas permintaan dari penulis pertama). Dari 240 guru mendekat, 178 menanggapi, tingkat tanggapan 74,2 persen. Guru-sampel ditemukan mewakili populasi guru Siprus dalam hal gender (x2= 0,81, df = 1, p = 0,42) dan tahun pengalaman (t = 1,21, df = 2.578, p = 0,22)Kuesioner terdiri dari 87 item, yang dirancang untuk mengukur keterampilan penilaian guru matematika di tiga aspek kerangka disajikan dalamGambar. 2(Yaitu, tahap penilaian, teknik penilaian, dimensi pengukuran). Kuesioner terdiri dari lima bagian, dan skala Likert lima poin digunakan untuk mengukur persepsi guru keterampilan mereka dalam matematika. Pada bagian pertama, guru diminta untuk memberikan informasi yang berkaitan dengan karakteristik latar belakang mereka (yaitu, jenis kelamin, posisi, dan pengalaman bertahun-tahun). Dalam empat bagian berikutnya, guru diminta untuk menunjukkan sejauh mana mereka berperilaku dengan cara tertentu selama matematika mengajar di kelas mereka. Setiap bagian ditujukan teknik penilaian yang berbeda. Bagian akhir khusus ditujukan pencatatan data dan pelaporan hasil. Setiap teknik penilaian diperiksa dalam kaitannya dengan empat aspek dari proses penilaian (konstruksi, administrasi, pencatatan dan pelaporan), dan untuk setiap aspek dari proses penilaian masing-masing dari lima dimensi (frekuensi, fokus, panggung, kualitas dan diferensiasi) adalah juga diukur. Misalnya, ketika memeriksa keterampilan guru dalam penilaian lisan, item yang bersangkutan dengan dimensi panggung dalam kaitannya dengan aspek pelaporan meminta guru untuk menunjukkan periode pelaporan hasil penilaian lisan kepada siswa. Demikian pula, dalam item memeriksa dimensi kualitas pembangunan penilaian tertulis, guru diminta untuk menunjukkan apakah mereka termasuk pertanyaan proses dalam tes tertulis, sedangkan item lain bertanya apakah meja spesifikasi didirikan untuk mengembangkan tes tertulis.Karena kerangka yang diusulkan mengacu pada semua empat fase penilaian, itu tidak praktis mungkin untuk mengukur kemampuan guru dalam penilaian dengan menggunakan observasi eksternal. Lebih khusus, pengamatan perilaku guru di kelas tidak bisa memberikan informasi yang berkaitan dengan kemampuan guru dalam alat penilaian konstruksi, merekam dan pelaporan data karena tugas-tugas ini dapat terjadi di luar kelas. Selain itu, untuk mengukur kemampuan guru dalam mengelola tugas-tugas penilaian, itu akan menjadi penting untuk mengamati sejumlah besar pelajaran per guru, terutama karena persentase yang signifikan dari guru Siprus memberikan tugas penilaian hanya pada akhir unit atau serangkaian pelajaran ( lihatKyriakides 2005) Dan karena itu akan sangat sulit untuk memperoleh data keterampilan guru dalam penilaian kecuali banyak pelajaran bagi setiap guru telah diamati. Meskipun keterbatasan pengumpulan data melalui self-laporan guru diakui, itu tidak layak untuk melakukan observasi kelas dalam skala besar sehingga untuk memastikan generalisability data. Namun demikian, hal itu dianggap penting untuk menguji validitas internal penelitian. Untuk alasan ini, guru yang berpartisipasi dalam survei ini diminta untuk menunjukkan apakah mereka bersedia untuk memberikan wawancara. Kami kemudian secara acak memilih delapan dari mereka dan melakukan wawancara semi-terstruktur. Metode komparatif konstan (Maykut & Morehouse 1994) Digunakan untuk menganalisis muncul dari wawancara data. Awalnya, 'dalam kasus analisis' (Denzin & Lincoln, 1998) Respon masing-masing guru dalam wawancara dilakukan tanpa akses ke / tanggapan nya kuesioner. Setelah membuat profil masing-masing diwawancarai, hal itu mungkin untuk mencocokkan respon guru dari wawancara dengan data kuesioner. Prosedur ini memberikan dukungan kepada validitas internal penelitian. Secara khusus, konsistensi diidentifikasi antara cara guru menanggapi dua instrumen penelitian (yaitu, kuesioner dan wawancara). Misalnya, guru 6 dilingkari nomor 2 (yaitu, jarang) pada skala Likert untuk B7 pernyataan kuesioner '' Sebelum membuat ujian, saya menuliskan tujuan saya ingin menilai dan selanjutnya menunjukkan yang menjalankan tes sesuai dengan setiap tujuan ''. Guru yang sama selama wawancara menyatakan: '' Saya biasanya menggunakan tes siap pakai untuk menilai murid-murid saya. Saya memiliki tes untuk setiap unit dan saya menggunakannya setiap tahun. Saya tidak benar-benar cocok dengan latihan dengan tujuan unit tapi saya pikir latihan sesuai dengan konten yang diajarkan, karena isi dari masing-masing unit tidak berubah ''. Demikian juga, guru 9 menyatakan: '' Selama pertemuan orang tua guru-, saya selalu melaporkan hasil tes kepada orang tua. Adalah penting bahwa mereka menyadari kinerja anak mereka dan bagaimana anak mereka lakukan dibandingkan dengan seluruh kelas. Saya fokus pada nilai tes siswa karena mereka memberikan gambaran yang jelas tentang apa yang siswa dapat melakukan '', pernyataannya yang konsisten dengan tanggapannya terhadap item E8, E13 dan E18 kuesioner. Untuk masing-masing guru, tanggapan terhadap semua item kuesioner dibandingkan dengan / tanggapan nya atas pertanyaan-pertanyaan wawancara (lihatChristoforidou, 2013). Perbandingan ini memungkinkan kita untuk mengidentifikasi konsistensi dalam cara guru menanggapi dua penelitianinstrumen. Beberapa kasus yang cocok tidak mungkin tidak terkait dengan guru tertentu atau barang tertentu.Selain itu, kami mencari sejauh mana langkah-langkah keterampilan guru dalam penilaian yang muncul dari kuesioner guru dikaitkan dengan status efektivitas sampel guru, seperti yang diuraikan di bawah ini.Untuk menguji dampak bahwa keterampilan guru dalam penilaian terhadap hasil belajar siswa, kita menarik data dari studi efektivitas yang menyelidiki status efektivitas sampel guru yang sama dalam mengajar matematika (Christoforidou, 2013). Secara khusus, tes tertulis yang diberikan kepada semua siswa (n = 2.358) dari sampel guru (n = 178) di awal dan di akhir ofschool tahun 2010-2011. Mengingat bahwa tes diberikan kepada siswa kelas 6 pada akhir tahun ajaran adalah obviouslymore sulit daripada tes diberikan kepada siswa kelas 2 pada awal tahun ajaran, itu dianggap perlu untuk membuat skor sebanding. Menyamakan dilakukan dengan menggunakan teori respon butir (IRT) pemodelan. Metode menyamakan mengikuti prosedur yang sama seperti yang digunakan dalam Program for International Student Assessment (PISA) studi. Estimasi dilakukan dengan menggunakan model logistik theextended dari Rasch (lihatLampiran Auntuk informasi lebih lanjut tentang model ini), yang mengungkapkan bahwa setiap skala memiliki sifat psikometrik yang memuaskan. Dengan demikian, untuk setiap periode penilaian, prestasi dalam matematika diperkirakan dengan menghitung orang perkiraan Rasch (Christoforidou, 2013).Informasi tentang faktor-faktor latar belakang siswa (yaitu, SES, umur, jenis kelamin) juga dikumpulkan dari catatan sekolah. Lima SES variabel yang tersedia: ayah dan tingkat pendidikan ibu (yaitu, lulusan sekolah dasar, lulusan sekolah menengah atau lulusan perguruan tinggi / universitas), status sosial pekerjaan ayah, status sosial pekerjaan ibu dan situasi ekonomi keluarga. Setelah klasifikasi pekerjaan yang digunakan oleh Kementerian Keuangan, adalah mungkin untuk mengklasifikasikan pekerjaan orang tua menjadi tiga kelompok ukuran relatif sama: pekerjaan-kelas pekerja (32%), pekerjaan kelas menengah (39%) dan pekerjaan kelas uppermiddle ( 29%). Menggunakan teknik pemodelan persamaan struktural, model faktor orde pertama didirikan. Model ini ditemukan agar sesuai dengan data (yaitu, x2 = 9,4, df = 5, p = 0,094; CFI = 0,961; RMSEA = 0,064) dan dengan demikian merupakan indikator SES muncul dari model ini.Model logistik yang diperpanjang dari Rasch (lihat lebih lanjut tentang model ini diLampiran A) Diaplikasikan pada ofteachers sampel utuh dan semua 87 langkah terkait dengan keterampilan penilaian mereka, dengan menggunakan program komputer Quest (Adams & Khoo, 1996).Gambar. 3menggambarkan skala untuk 87 langkah keterampilan penilaian, dengan kesulitan barang dan tindakan guru dikalibrasi pada skala yang sama. Demi singkatnya, nilai barang ambang batas tidak disajikan dalam gambar ini, tetapi nilai-nilai ini ditemukan dipesan dari rendah ke tinggi, menunjukkan bahwa guru menjawab konsisten dengan format yang respon memerintahkan skala Likert kami. Selain itu, jarak ambang berkisar 1,7-2,5 logits.Gambar. 3juga menunjukkan bahwa 87 item kuesioner mengukur keterampilan penilaian guru memiliki cocok dengan model pengukuran, menunjukkan perjanjian yang kuat di antara 178 guru yang terletak di posisi yang berbeda pada skala, di semua 87 item. Selain itu, item kuesioner yang tepat sasaran terhadap 'tindakan karena guru guru skor berkisar 3,14-3,11 logits dan kesulitan barang berkisar 3,11-3,34 logits. Lebih Lanjut,Tabel 1menyediakan ringkasan statistik skala. Keandalan dihitung dengan Item Pemisahan Index dan Indeks Orang Pemisahan. Indeks pemisahan merupakan proporsi varians diamati dianggap benar. Nilai 1 merupakan keterpisahan tinggi di mana kesalahan kesulitan rendah dan barang dan tindakan siswa baik dipisahkan sepanjang skala (Wright & Masters 1981). Kita dapat mengamati bahwa indeks kasus dan pemisahan barang lebih tinggi dari 0,92, menunjukkan bahwa keterpisahan dari skala cukup memuaskan (Wright, 1985). Selain itu, infit mean kotak dan kotak rata-rata pakaian yang ditemukan di dekat salah satu dan nilai-nilai dari infit t-nilai dan pakaian t-skor adalah sekitar nol.Hasil dari berbagai pendekatan yang digunakan untuk menguji fit dari model Rasch dengan data kami juga mengungkapkan bahwa ada baik fitwith model ketika kinerja guru dalam keterampilan penilaian tersebut dianalisis. Secara khusus, semua keterampilan penilaian ditemukan memiliki barang infit dengan kisaran 0,85-1,16, dan barang pakaian dengan kisaran 0,76-1,40. Semua nilai-nilai infit t untuk kedua orang dan keterampilan penilaian yang lebih besar dari 2,00 dan lebih kecil dari 2,00. Akhirnya, prosedur yang diusulkan olehYen (1993)juga digunakan untuk menguji kemandirian daerah, dan ditemukan bahwa kemandirian daerah tidak dilanggar untuk setiap item.Menggunakan analisis cluster untuk menentukan tingkat kesulitanSetelah menetapkan keandalan skala, prosedur untuk mendeteksi pengelompokan pola dalam pengukuran desain yang dikembangkan olehMarcoulides dan Drezner (1999)(LihatLampiran B) Digunakan untuk mengetahui apakah keterampilan penilaian dikelompokkan ke dalam tingkat kesulitan yang dapat diambil untuk berdiri untuk jenis perilaku yang terlibat dalam mengevaluasi prestasi siswa dalam matematika, yang bergerak dari relatif mudah untuk lebih sulit. Menerapkan metode ini untuk segmen keterampilan penilaian atas dasar kesulitan mereka yang muncul dari model Rasch menunjukkan bahwa mereka secara optimal dikelompokkan ke dalam empat kelompok. Secara khusus, D kumulatif untuk solusi empat klaster adalah 59 persen, sedangkan kesenjangan kelima ditambahkan hanya 2 persen. Menurut literatur tentang analisis cluster, solusi fourcluster menjelaskan 59 persen dari varians diamati dianggap memuaskan (Romesburg, 1984). Penjelasan dari empat tahapan yang berbeda / jenis perilaku penilaian guru diberikan di bawah ini.Tipe 1: Menggunakan tes tertulis untuk mengukur keterampilan dasar matematika untuk alasan sumatif (3.10 sampai dengan 2.20 logits).Keterampilan penilaian termasuk dalam tahap ini mengungkapkan bahwa para guru (n = 56) menunjukkan jenis perilaku menggunakan rutinitas penilaian sehari-hari. Tipe 1 guru memperkaya atau mengubah tes tertulis siap pakai dan menggunakan berbagai jenis pertanyaan tertulis untuk menilai kinerja siswa. Namun, mereka tidak menggunakan penilaian lisan dan / atau pengamatan secara sistematis untuk menilai kinerja siswa mereka. Catatan disimpan hanya dalam kaitannya dengan hasil penilaian tertulis sedangkan hasilnya dilaporkan kepada orang tua hanya untuk tujuan sumatif. Akhirnya, Type 1 guru muncul untuk memeriksa pekerjaan rumah secara konsisten.Tipe 2: Menggunakan teknik yang berbeda dari penilaian untuk mengukur keterampilan dasar dalam matematika (1,40 hingga 0,50 logits).Keterampilan penilaian termasuk dalam tahap ini mengungkapkan bahwa para guru (n = 48) menunjukkan jenis perilaku yang dapat menggunakan berbagai teknik penilaian dengan cara yang tepat untuk mengukur keterampilan dasar dalam matematika. Secara khusus, tipe 2 guru membuat tabel spesifikasi sebelum mengembangkan tes tertulis mereka. Dengan cara ini, mereka mencoba untuk memastikan bahwa tes mereka mewakili apa yang telah diajarkan di kelas. Mereka juga termasuk item tes yang mengukur kemampuan siswa untuk memberikan jawaban yang benar untuk tugas dan item yang menyelidiki proses yang digunakan oleh masing-masing siswa dalam / nya usahanya untuk menemukan jawaban atas masalah (yaitu, pertanyaan proses disertakan). Dalam merancang item tes, mereka juga mempertimbangkan kemampuan siswa mereka. Selain itu, mereka melaporkan bahwa mereka menawarkan komentar klarifikasi kepada siswa selama pemberian penilaian dan bahwa penilaian lisan dan observasi yang direncanakan terlebih dahulu. Selanjutnya, guru dalam tahap langkah ini di luar pekerjaan memeriksa dan menggunakan informasi pekerjaan rumah untuk menilai keterampilan dasar oftheir siswa dalam matematika. Sehubungan dengan pencatatan data pengkajian, mereka menggunakan komentar deskriptif untuk memberikan umpan balik kepada siswa mereka. Akhirnya, mereka melaporkan kepada orang tua pada hasil penilaian siswa mereka.Tipe 3:Menggunakan teknik penilaian untuk mengukur tujuan pendidikan yang lebih kompleks karena alasan formatif (0,20 hingga 1,95 logits).Guru menunjukkan jenis perilaku (n = 47) dapat menggunakan teknik penilaian untuk mengukur tujuan pendidikan yang lebih kompleks dalam matematika, seperti kemampuan siswa untuk berkomunikasi dengan menggunakan matematika. Dengan demikian pengamatan digunakan secara sistematis, dengan menetapkan tujuan yang spesifik dan menciptakan alat observasi yang berkaitan dengan tujuan-tujuan ini. Data yang berasal dari semua teknik penilaian, tidak hanya dari penilaian tertulis (seperti dalam Tipe 2 guru) dicatat dan catatan mengambil bentuk tujuan dan / atau latihan dokumentasi tertentu. Selain itu, pelaporan dilakukan untuk alasan formatif dan guru dalam penilaian ini informasi laporan tahap tidak hanya untuk orang tua, tetapi untuk siswa mereka juga. Akhirnya, penilaian kelompok digunakan dengan cara yang sistematis dan terutama berkaitan dengan kontribusi masing-masing siswa untuk kerja tim dan bukan dengan kinerja keseluruhan tim.Tipe 4:Diferensiasi dalam penilaian: Menerapkan penilaian dalam dan untuk acara-acara dan siswa yang berbeda (2.60 sampai dengan 3.35 logits).Berdasarkan penilaian keterampilan termasuk dalam jenis perilaku, tampak bahwa tipe 4 guru (n = 27) mampu membedakan prosedur penilaian dan alat berdasarkan kebutuhan siswa mereka. Oleh karena itu guru dalam tahap ini tidak selalu menggunakan tes tertulis yang sama untuk mengukur pencapaian berbagai kelompok mahasiswa dan mereka lebih fleksibel selama proses administrasi (misalnya, mereka memberikan tugas tambahan kepada mereka yang menyelesaikan lebih awal dan lebih banyak waktu untuk memperlambat peserta didik) . Mereka juga membedakan pelaporan informasi penilaian terhadap kedua orang tua dan siswa (misalnya, pelaporan dilakukan lebih sering tentang siswa yang membutuhkannya, mereka menggunakan berbagai bentuk / bahasa yang sesuai dengan tingkat pendidikan orang tua) dan mengejar komunikasi guru-orang tua , terutama dengan orang tua yang jarang atau tidak pernah mengunjungi sekolah.Sejauh mana keterampilan penilaian guru dapat dikaitkan dengan karakteristik latar belakang merekaBagian terakhir dari bagian ini menyelidiki sejauh mana karakteristik latar belakang guru yang berhubungan dengan keterampilan penilaian guru. Awalnya, analisis satu arah varians dilakukan untuk mengetahui apakah konteks sekolah memiliki efek pada respon guru kuesioner mengukur kemampuan penilaian mereka. Dengan mempertimbangkan Rasch orang / perkiraan guru, yang mengacu pada kemampuan penilaian masing-masing guru, ditemukan bahwa antara kelompok varians tidak lebih tinggi dari dalam kelompok (yaitu, guru dalam sekolah yang sama) varians (F = 0,831, p = 0.67). Akibatnya, analisis regresi uni-tingkat dilakukan untuk mengetahui apakah Rasch perkiraan orang / guru keterampilan penilaian dapat dikaitkan dengan salah satu dari tiga faktor latar belakang (yaitu, tahun pengalaman, jenis kelamin, posisi). Dengan demikian skor Rasch untuk guru diperlakukan sebagai variabel dependen, sedangkan tahun pengalaman mengajar, serta mengukur jenis kelamin dua variabel boneka (0 = laki-laki, 1 = perempuan) dan tulisan sampel guru kami (0 = guru, 1 = wakil kepala) diperlakukan sebagai variabel independen. Model yang ditemukan lebih cocok dengan data yang mampu menjelaskan persentase yang relatif kecil dari varians dalam skor keterampilan penilaian (16%), dan persamaan standar yang muncul menunjukkan bahwa efek dari variabel dummy 'post' lebih besar (0.34) dibandingkan dengan tahun pengalaman (0,22). Gender tidak ditemukan terkait dengan keterampilan guru dalam penilaian. Perlu diakui bahwa itu tidak mungkin untuk mengumpulkan informasi tentang variabel latar belakang guru lainnya, seperti kualifikasi mengajar dan pelatihan mereka dalam penilaian, yang mungkin berkaitan dengan keterampilan mereka dalam penilaian. Namun, 'tahun pengalaman' variabel dan 'post' yang ditemukan terkait tidak hanya dengan Rasch skor mengukur kemampuan mereka dalam penilaian, tetapi juga dengan klasifikasi guru ke dalam empat tahap penilaian. Secara khusus, uji Mann-Whitney menunjukkan bahwa guru yang telah berhasil dipromosikan ke jabatan wakil kepala yang terletak di tingkat yang lebih tinggi keterampilan penilaian (Z = 2,02, p = 0,043). Selain itu, koefisien korelasi Spearman (r = 0,23, n = 178, p