Norm-referanslı değerlendirmeye gelen bir bakış: Kriter-referanslı değerlendirme ve...

14
XIII. Ulusal Eğitim Bilimleri Kurultayı, 6-9 Temmuz 2004 İnönü Üniversitesi, Eğitim Fakültesi, Malatya DEĞERLENDİRMEYE GENEL BİR BAKIŞ: KRITER-REFERANSLI (MUTLAK) YA DA NORM-REFERANSLI (BAĞIL) DEĞERLENDİRME Gülşah Başol Göçmen Gaziosmanpaşa Üniversitesi [email protected] ÖZET: Dünyanın değerlendirme konusundaki tercihi kriter-referenslı değerlendirme ya da norm ve kriter refeanslı değerlendirmenin kombinasyonu yönündeyken, eğri üzerinden not verme olarak ta anılan norm-referanslı değerlendirme, son yıllarda Turk üniversitelerinde popüler olmaya başlamıştır. Bu çalışmanın amacı kriter-referanslı (mutlak) veya norm-referanslı (bağıl) değerlendirmeyi tanıtmak, iki sistem arasındaki farkı ıklamak ve her iki değerlendirme sisteminin avantaj ve dezavantajlarını ıklayarak genel bir değerlendirme yapmaktır. Bu konuda hatırı sayılır bir literatür eğri üzerinden not vermenin not enflasyonuna neden olacağını ve eğitimde standartların şmesi ile sonuçlanacağını belirtmektedir. Bu çalışma halkı ve üniversite yetkililerini değerlendirme sistemlerini acelece değiştirmeden önce bağıl değerlendirmenin tehlikeleri hakkında bilgilendirmeyi amaçlar. Anahtar kelımeler: Norm-referanslı değerlendirme, kriter-referanslı değerlendirme, eğri üzerinden değerlendirme. SUMMARY: Norm-referenced testing, also called grading on the curve, has become popular among Turkish universities in the last couple years, although the world favors the criterion- referenced testing or its combination with norm-referenced testing. The purpose of this study is to explain norm-referenced testing and criterion-referenced testing, the difference between them and to make a general evaluation by explaining the advantages and disadvantages of both systems. According to a substantial literature on the topic, grading on the curve causes grade inflation and a decrease in the standards of education. This paper attempts to inform the public and the university officials about the dangers of norm-referenced testing so that they can be aware of the risks before they rush into make dramatic changes in their evaluation systems.

Transcript of Norm-referanslı değerlendirmeye gelen bir bakış: Kriter-referanslı değerlendirme ve...

XIII. Ulusal Eğitim Bilimleri Kurultayı, 6-9 Temmuz 2004 İnönü Üniversitesi, Eğitim Fakültesi, Malatya

DEĞERLENDİRMEYE GENEL BİR BAKIŞ: KRITER-REFERANSLI (MUTLAK) YA DA NORM-REFERANSLI (BAĞIL)

DEĞERLENDİRME Gülşah Başol Göçmen

Gaziosmanpaşa Üniversitesi

[email protected]

ÖZET:

Dünyanın değerlendirme konusundaki tercihi kriter-referenslı değerlendirme ya

da norm ve kriter refeanslı değerlendirmenin kombinasyonu yönündeyken, eğri

üzerinden not verme olarak ta anılan norm-referanslı değerlendirme, son

yıllarda Turk üniversitelerinde popüler olmaya başlamıştır. Bu çalışmanın

amacı kriter-referanslı (mutlak) veya norm-referanslı (bağıl) değerlendirmeyi

tanıtmak, iki sistem arasındaki farkı açıklamak ve her iki değerlendirme

sisteminin avantaj ve dezavantajlarını açıklayarak genel bir değerlendirme

yapmaktır. Bu konuda hatırı sayılır bir literatür eğri üzerinden not vermenin not

enflasyonuna neden olacağını ve eğitimde standartların düşmesi ile

sonuçlanacağını belirtmektedir. Bu çalışma halkı ve üniversite yetkililerini

değerlendirme sistemlerini acelece değiştirmeden önce bağıl değerlendirmenin

tehlikeleri hakkında bilgilendirmeyi amaçlar.

Anahtar kelımeler: Norm-referanslı değerlendirme, kriter-referanslı

değerlendirme, eğri üzerinden değerlendirme.

SUMMARY:

Norm-referenced testing, also called grading on the curve, has become popular

among Turkish universities in the last couple years, although the world favors

the criterion- referenced testing or its combination with norm-referenced

testing. The purpose of this study is to explain norm-referenced testing and

criterion-referenced testing, the difference between them and to make a general

evaluation by explaining the advantages and disadvantages of both systems.

According to a substantial literature on the topic, grading on the curve causes

grade inflation and a decrease in the standards of education. This paper

attempts to inform the public and the university officials about the dangers of

norm-referenced testing so that they can be aware of the risks before they rush

into make dramatic changes in their evaluation systems.

2

Key Words: Norm-referenced tesing, criterion-referenced testing, grading on

the curve.

DEĞERLENDİRMENİN AMACI:

Eğitim gelişigüzel bir aktivite değildir. Örgün eğitim, sonucu şansa bırakılamayacak kadar değerli

emek ve yatırımlar üzerine kurulmuştur. Verdiğimiz eğitimden ne beklediğimiz alacağımız sonuçla her ne

kadar yakından ilgili olsa da değerlendirme olmaksızın başarı veya başarısızlığı yordama olasılığı

düşüktür.

Eğitim araştırmalarının temelinde eğitimin kalitesini artırmak ve başarıyı sürekli kılmanın temel

alındığı düşünülürse belirtildiği gibi gelişigüzel bir aktivite olmayan eğitimin kalitesi ve standartlarını

tartışmak ta pekala mümkündür. Değerlendirme nicel formdaki ölçme sonuçlarının nitelik belirtir ifadelere

dönüştürülmesi yoluyla başarı veya başarısızlığın yordanmasıdır. Değerlendirmenin olmadığı veya

değerlendirmeye gereken önemin verilmediği bir eğitim sisteminin başarılı olacağını düşünmek

olanaksızdır. İyi bir değerlendirme sisteminde sistemin amacı ve nasıl işleyeceği açık bir yönergeyle

ortaya konulmalıdır ki ilgili olan taraflar, öncelikle öğrenciler ve öğretmenler olmak üzere bilgi sahibi

olsunlar.

Değerlendirmenin yapılabilmesi için öğrenmenin gerçekleşmiş olup olmadığının davranış

formunda ölçülmüş olması gerekmektedir. Değerlendirme yönteminin kararlaştırılması öğretim

elemanının eğitime bakış açısı ve sunduğu dersten ne beklediği ile yakından ilintilidir. Yurtdışındaki

yüksek öğretim kurumlarında genel olarak öğretim elemanının bireysel olarak kendi değerlendirme

sistemini belirleyebilirken bazı üniversitelerimiz bağıl değerlendirme paket programlarının üniversite

genelinde kullanımı yoluna girmiştir.

Herşeyden önce uygulamaya konulan değerlendirme sistemi, değerlendirme sonuçlarının kullanım

amacına uygun olmalıdır. Örneğin, öğrencileri birbirleriyle kıyaslamak, erişi düzeylerine göre sıralamak

esas olduğunda norm-referanslı (bağıl) değerlendirme mantıklı bir seçim olacaktır. Ancak, örneklemimizi

dezavantajlı öğrencilerin oluşturduğu, sınav sorularının çok zor veya çok kolay sorulardan oluştuğu,

grubun kendi içinde fazlasıyla heterojen olduğu küçük örneklemlerde norm-referanslı (bağıl)

değerlendirmeyi uygulayamayız. Norm-referanslı değerlendirme birkaç öğrencinin iyi yapacağı,

çoğunluğun ortalama düzeyde olacağı ve yine sınırlı sayıda öğrencinin çok zayıf olacağı varsayımı

üzerinden hareket eder (Brandt, 2003). Norm-referanslı değerlendirmede psikolojide insana özgü birçok

özelliğin normal dağılım gösterdiği kabul edilmesinden hareketle insanların başarılarının da normal bir

dağılım göstereceği düşüncesi temel alınmıştır. Bu nedenledir ki çoğu zaman yüksek öğrenimde norm-

referanslı değerlendirme eğri üzerinden değerlendirme olarak anılagelmiştir (Aviles, 1999). Oysa ki küçük

bir sınıfta normal diye adlandırabileceğimiz bir dağılımı yakalamamız zor olacaktır. Norm-referanslı

3

değerlendirme ile kriter-referanslı değerlendirme arasındaki temel fark kriter-referanslı değerlendirmede

amaç her öğrenciyi standartlar seviyesine getirmekken, norm-referenaslı değerlendirme de amacın onları

sıraya koymak, kategorilere ayırmak olmasıdır. Salt mutlak veya bağıl değerlendirme sisteminde karar

kılındığı durumları ele aldığımızda, görürüz ki aslında tek bir sistemin esas alınmasındaki amaç,

değerlendirme sisteminin ideal amacı ile bağdaşmaz.

Aviles(1999) ‘e göre öğrenciye “A” veya “B” vermek kolaydır ancak “A” ile “B” arasında ne fark

olduğunu açıklamak o kadar kolay değildir. Norm-referanslı değerlendirme bir bakıma bu işin yükünü

öğretim elemanından değerlendirme sistemine doğru değiştirir. Eğri “A” diyorsa öğrencinin notu “A” ‘dır,

“B” diyorsa “B” ’dir. Yani öyle bir şekilde verelim ki notlarımızı hem “A” ile “B” arasındaki fark anlamlı

olsun hem de “A” ‘nın kendisine yüklediğimiz değerden birşey eksilmesin. A’ demek B’ den daha iyi

anlamına mı gelmeli yoksa öğrenilecek materyalin tamamına yakınının öğrenildiği anlamına mı

gelmelidir? Burada tartışılan A’nın B’den daha yüksek olup olmadığı değil, A’nın ne ifade etmesi

gerektiğidir. A almak demek bir grup içinde diğerlerinden daha iyi mi olmaktır, yoksa önceden

belirlenmiş ve bir anlam ifade eden standartlara başarıyla ulaşmış olmak mıdır? Değerlendirmenin esas

amacının öğrenilenlerin ne derece öğrenildiğinin yoklanması olduğu öğrencileri atletizm

yarışındaymışlarcasına sıraya koymak kategorilere ayırmak olmadığı unutulmamalıdır.

NORM-REFERANSLI (BAĞIL) DEĞERLENDİRME

Norm-referanslı (bağıl) değerlendirmenin temelinde öğrencilerin bulundukları grup içinde

kıyaslanması ve başarılarının göreceli olarak ifade edilmesi vardır. Bağıl değerlendirmeye göre

öğrencilerin başarısı göreceli olarak değerlendirilir.

Ideal norm-referanslı (bağıl) değerlendirmede pilot testi geliştiren ekip temsili bir öğrenci

grubuna testi uygular ve testin sonraki uygulamalarının sonuçları pilot test sonuçları ile kıyaslama

yapılarak değerlendirilir (Miller-Whitehead, 2001). Pilot test sonuçlarının ulaşılabilir olduğu durumlarda

avaraj bir öğrencinin o testte alacağı puan daha öğrenci testi almadan kestirilebilir. Ancak sınıf içi

değerlendirmeler gibi pilot test uygulamak mümkün olmadığı durumlarda, aynı sınıftaki öğrenciler

birbirleriyle kıyaslanması yoluyla bağıl değerlendirme yapılır.

Norm-referanslı (bağıl) değerlendirmede değerlendirme ölçeği istatistiğin gücünden yararlanarak

oluşturulur. Childs (1976) notları standart puanlara dönüştürmenin, bir gruba ait standart sapmayı

aritmatik ortalamayı bilmenin önemine işaret ederek, standart “z” puanları öğrencinin notunu her durumda

karşılaştırılabilir hale getirdiğini vurgular. Childs (1976) aynı zamanda norm-referanslı (bağıl)

değerlendirme yapabilmek için notların normal bir dağılım göstermesinin önemini vurgular.

Norm-referanslı (bağıl) değerlendirme hedef panosunu okların en çok haraket ettiği noktaya

kaldırmaya veya indirmeye benzer. Bir sınıfa ait notlar sıralanır, ortalama ve standart sapması hesaplanır

4

ve puanların ortalama etrafında dağılımlarına göre harf notları takdir edilir. Norm-referanslı (bağıl)

değerlendirmenin ne olduğunu ve nasıl işlediğini anlayabilmek için temel istatistik bilgisi şarttır. Notların

bir eğri üzerinde gösterildiği düşünülürse sınıfın başarı düzeyine göre eğrideki kesme noktaları değişir.

Ortalama durumdan duruma veya sınıftan sınıfa değişeceğine göre, alınan harf notları da öğrencinin

ortalamanın neresinde olduğuna göre farklılık gösterir.

Norm-referanslı (bağıl) değerlendirmede öğrencinin yapabileceğinin en iyisini ortaya koyması

yeterince iyi kabul edilir. Dolayısıyla öğrencinin belli notları almak için belli derecede erişi göstermesine,

kalıp geçmesi için sınır puanın üzerinde olması gibi önceden belirlenmiş kriterlere göre performans

sergilemesine gerek yoktur. Notları farklı renklerde ve büyüklüklerde dilimlere ayrılmış bir pasta olarak

düşünürsek, bağıl değerlendirme testi alan öğrencilere o pastanın bölüştürülmesine benzer. Kimin

pastanın hangi diliminden alacağına karar verilirken önceden hazırlanmış bir standart ölçek uygulanır.

Ölçeğe göre sınıfın yüzde kaçının en yüksek harf notu, “A” ile ödüllendirileceğine gore belli sayıda

öğrenci “A” ile ödüllendirilir. İlginç olanı mutlak değerlendirmeye göre değerlendirilse aynı öğrenciler

belki “B” ve hatta “C” alabilecekleri bir puana bağıl değerlendirme de “A” alabilmektedirler. Önemli olan

soruların kaçına doğru cevap verdikleri değil sınıfın neresinde oldukları veya sınıfın çoğunluğuna göre

daha iyi performans gösterip göstermedikleridir.

Norm-referanslı (bağıl) değerlendirme yapmak üzere geliştirilmiş dört farklı metot burada kısaca

tanıtılacaktır. Bunlar; değişim aralığı metodu, kopma metodu, normal dağılım eğrisine göre not verme

metodu, ve ortalama metodudur. Değişim aralığı metodunda en yüksek ve en düşük puan arasındaki fark

bulunur ve bulunan değer F notunun ağırlığı ve diğer notların ağırlıkları toplamına bölünerek her not

arasındaki puan yani not dilimi bulunur. Notlar A, A-, B+, B-, C, D, ve F olsun. F’ in ağırlığını 4 kabul

edersek 6 + 4 = 10. En yüksek notun 90 en düşük notun 30 olduğu bir durumda fark 60 (90-30=60), 60

/10= 6 böylece her not dilimi 6 puan olacaktır. Dikkati çeken nokta kriter-referanslı değerlendirmede

sabit bir ölçek üzerinden değerlendirme yapılırken, bağıl değerlendirmede notların kesme noktalarının

değişim göstermesidir. En yüksek notun 80 en düşük notun 40 olduğu bir senaryoda bu sefer en yüksek

not 80 ve bir iki puan aşağısına verilecek ancak değişim aralığı daraldığından, yukarıdaki senoryadan

farklı olarak dilimler de küçülecektir.

Diğer bir yöntem kopmalara göre not takdir edilmesidir. Bu yöntemde testten alınması mümkün

olan puanlar yüksekten düşüğe sıralanır ve her notu alan öğrenci sayısınca o notun yanına çeltik atılır. En

düşük notu alan öğrenci sayısınca da çeltik atıldıktan sonra ortaya çıkan şekle bakılır ve bu plottaki

kopmaların yerlerine göre not takdirinde bulunulur.

Eğri üzerinden not verme norm-referanslı (bağıl) değerlendirme yöntemlerinden en sık

kullanılanıdır. Bu yönteme göre puanların dağılımı normal dağılım eğrisine uygunsa eğri altında kalan

5

alanlara göre not takdirinde bulunulur. Dikkat edilmesi gereken nokta geçme kalma noktasının tayinidir.

Diğer notlar bu kesme sınırı ile en yüksek puan arasında bölüştürülür.

% 31 FF,

% 19 DC,

% 19 CC,

% 15 CB,

% 9 BB,

% 4 BA,

% 3 AA

Buradaki önemli nokta, notlar farklılık gösterdiği müddetçe her durumda öğrencilerin %3 ‘ünün A, %4

‘ünün BA, %9 ‘unun BB, %15 ‘inin CB, %19 ‘unun CC, %19 ‘unun DC, ve %31 ‘inin FF alacağıdır.

Ancak sınıf mevcudunun az olduğu sınıflarda notların dağılımının normal olması ihtimali çok düşük

olacağından öğrencilerin sınıf ortalaması etrafında puanlar olması beklenen bir sonuçtur. Puanların

farklılaşma göstermemesinin notlara nasıl aynsıyacağı düşünüldüğünde problemin ciddiyeti daha iyi

anlaşılabilir. Notların 60 ile 70 arasında değiştiği bir durumda 70’e A 60’a F vermek problemi

çözmeyecektir. Bu yüzden pek çok üniversitemiz duruma göre not ölçeği uygulama yoluna gitmiştir. Sınıf

ortalamasına bakılarak farklı kesme noktaları kullanılan sistemin dezavantajı düşük ortalamlı sınıflarda

genel olarak durumu zayıf olan öğrencilerin şişirilmiş notlara ulaşarak kendilerini olduğundan daha

başarılı algılamalarıdır. Burada bağıl değerlendirmeyi kullanan okullardan mezun olan öğrenciler lehine

bir avantajı gözlemlememiz mümkündür. Biri bağıl sistemle değerlendirilmiş, diğeri mutlak sişstemle

değerlendirilmiş aynı seviyede olan iki öğrenciden bağıl sistemde değerlendirilmiş olanın notu daha

yüksek olacaktır. Ancak bu kullanılan değerlendirme sisteminin notlar üzerinde olan etkisinden başka

birşey değildir. Buradaki problem aynı seviyedeki iki öğrencinin notlarının neden farklı olduğu değil

notlara yüklenen anlamdır. O halde yapılması gereken öğrencileri değerlendirirken sırf nota bağlı

kalmamak ve başarının geçerli başka kriterlere dayandırılmasıdır.

Bağıl sisteme geçen üniversitelerimizin bağıl sistemi tercih etme nedenleri arasında şunlar göze

çarpmaktadır: Afyon Kocatepe Üniversitesine göre bağıl sistem kredili sistemin en önemli unsurudur.

Selçuk Üniversitesine göre bağıl sisteme dünyaca ünlü SAT, GRE, ACT gibi binlerce öğrencinin girdiği

standart sınavlarda kullanıldığından, öğrencinin başarısını yurtiçi ve yurtdışındaki öğrencilerle

kıyaslanabilir hale getirdiğinden, akreditasyon amaçlı çalışmalarda Avrupa Birliği ile uyum içinde

çalışmak için ve benzeri sebeplerden dolayı geçilmelidir. Ancak bağıl değerlendirmenin sadece kredili

sistemin bir unsuru olmadığını bilmekteyiz. Bağıl değerlendirme yapılmadan kredi sistemini kullanmak

mümkündür. İkincisi dünyaca ünlü ACT, GRE, TOEFL gibi standart sınavlarda bağıl değerlendirme

kullanılmaktadır; ancak o sınavlara binlerce öğrencinin girdiğini de göz ardı etmemek gerekir. Norm-

6

referanslı (bağıl) değerlendirmenin çok sayıda öğrencinin katıldığı standart bir sınavın sonucunu

değerlendirmekte kullanıldığında başarılı sonuçlar verdiği kuşku götürmez ancak sınıf içi

değerlendirmeler için kullanıldığında aynı şeyi söylemek mümkün değildir. Ayrıca bağıl değerlendirme ile

euro karıştırılmamalıdır; bağıl not verdiğiniz kurumda eğriyi oluşturan sınıf içinde anılmalıdır. Mavi

havuzdaki balığı ancak mavi havuzdaki balıklarla karşılaştırabilirsiniz çünkü onları ölçerken kullandığınız

ölçekler farklıdır. Bizim bağıl sistemle okul birincisi seçtiğimiz öğrenci belki de standartları daha ağır

olan bir okulun orta seviyeli öğrencisi ile eşdeğer de olabilir. Aynı okulda, aynı testi farklı zamanlarda

almış iki öğrencinin notunu bile karşılaştırıp karşılaştıramayacağımız şüpheliyken iki farklı kıta

öğrencisinin notları aynı sistemde veriliyor diye karşılaştırılabilir demek yanlış olur. ECTS (European

Creadit Transfer System) ile akreditasyon için gerekli olmasına gelince, ECTS sadece harf notlarının

kullanımını gerekli görmektedir, öğrencilerinizi bağıl sistemle değerlendireceksiniz diye bir yaptırımı

olmayacağı gibi yoktur da. Bizdeki notların ECTS ölçeğindeki yerini belirtir bir dönüşüm cetveli üzerinde

mevcut sistemi açıklamak yeterli olacaktır. Harf sistemine geçmek bağıl değerlendirmeye geçmek demek

değildir. Kriter-referanslı değerlendirmede yapılan ölçekle mutlak değerlendirmede de not aralıkları

harfle ifade edilebilir. Örneğin, mevcut sistemimizde 90 –100 arası “pekiyi” iken “A” dersek, sistemimizi

harf sistemine dönüştürmüş oluruz. Bu tip değerlendirme hala ölçekle mutlak değerlendirme kapsamına

girer, ancak harf sistemine dönüştürüldüğünde daha evrenseldir.

Son olarak ortalamayı temel alan değerlendirmede ortalama dikkate alınarak sınıftaki not

dağılımına göre not verilir. Örneğin, ortalamadan az not alanlar kalır, “A almak için ortalamanın en az 1

SS ya da 2 SS üzerinde olmak gerekir” diye baştan belirleme yapılır. Kalma sınırını ortalamanın çok

altında belirleyen bir değerlendirme sistemi başarıyı olduğundan yüksek göstermemize neden olur. Norm-

referanslı (bağıl) değerlendirmenin en büyük dezavantajı değerlendirme ölçeğinin subjektif olması,

durumdan duruma farklılıklar göstermesidir (Hunt, 1997). Norm-referanslı (bağıl) değerlendirmenin en

çok eleştiri aldığı nokta not enflasyonuna yol açmasıdır.

Bazı durumlarda test çok zor olduğunda ve sınıfın notları çok düşük olduğunda sınavın

zorluğundan kaynaklanan başarısızlığı manipüle etmek ve öğrencilere notlarını biraz yükseltme şansı

tanımak için eğrinini uygulandığı durumlar vardır (Doolittle, 1999). Yani eğri üzerinden not vermenin

daha yüksek notlarla sonuçlandığı bilinen bir gerçektir. Üst dilimdeki öğrencilerin A alabilmesi için çok

yüksek bir performans sergilemelerine gerek yoktur. Ortalamanın bazen bir buçuk bazen bir standart

sapma yukarısında olmaları çoğu zaman yeterlidir. Selçuk Üniversitesinin aynı notları bağıl ve mutlak

değerlendirmeye tabii tuttuktan sonra ortaya koydukları çizelge karşılaştırmak amacıyla aşağıda

verilmiştir. Dağılımda aynı sınıfın notlarına bağıl ve kriter değerlendirme uygulandığında alınan notların

sayıları karşılaştırılmıştır. Çizelgede kırmızı sütunlar mutlak, mavi sütünlar bağıl değerlendirmeye isabet

eder.

7

Şekil 1.

Görülüyor ki aynı sınıfın notlarına bağıl değerlendirme uygulandığında toplam A alan öğrenci

sayısı kriter-referanslı (mutlak) değerlendirmede 7‘ den 17‘ ye fırlamıştır. B alanlar 16‘ dan 20‘ ye

yükselmiş ve en çarpıcısı F alanlar 16‘ dan 6 ‘ya düşmüştür. Demek oluyor ki bağıl değerlendirme

uygulandığında yüksek notların erişilmesi kolaylaşıyor ve kalmak güçleşiyor. Belki de Bağıl

değerlendirmeye bağıl değerlendirme değil de tembel öğrencilerin ve avarajla yetinen öğrenciler için

barınma sistemi demek daha yerinde olabilir.

Norm-referanslı (bağıl) değerlendirmede ortalama değer ve standart sapmanın derecesine bağlı

olarak sınıfın not dağılımı notların belirlenmesinde önem taşır. Diyelim ki notlar fazla dağılım

göstermesin ve herkes 50-70 arasında puan alsın. Bu durumda farklı derecede performansı nitelediği

varsayılan notlar dar bir aralıkta yığılacaktır. Öğrenciler düşük performans gösterdikleri durumlarda bile

ortalamanın üzerinde olmaları şartıyla yüksek harf notları ile ödüllendirildiklerinden, daha iyi performans

göstermelerine gerek kalmayacak sonuç olarak öğrencilerde motivasyon düşmesi ve bunun sonucu olarak

standartların düşmesi ile karşı karşıya kalınacaktır. Norm-referanslı (bağıl) değerlendirmede

öğrencinin alacağı notun belirleyicisi kendi performansı kadar sınıfın genel performansıdır. Bir grup

öğrencinin kasıtlı olarak aralarında anlaşarak sınavda avaraj kağıt vermesi sonucu aritmatik ortalama

düşecek ve yüksek notlara ulaşmak kolaylaşacaktır.

KRİTER REFERANSLI (MUTLAK) DEĞERLENDİRME

Kriter-referanslı (mutlak) değerlendirmenin literatüre girişi Glaser ve Klaus’un 1962 yayını ile

başlar. Kriter-referanslı değerlendirme norm-referanslı diğer adıyla “eğri üzerinden (grading on the curve)

” yapılan değerlendirmeye alternatif olarak doğmuştur. Kriter-referanslı (mutlak) değerlendirmenin güçlü

8

yönü öğrencinin başarısının diğer öğrencilerden soyutlanarak durumdan duruma değişmeyen sabit, ortak

bir standart ölçüt alınarak ya da belirli derecede bir performans kriter alınarak yapılmasıdır. Böylelikle

içinde bulunulan grubun performansına bakılmaksızın öğrencinin değerlendirilmesi yapılır. Kriter-

referanslı (mutlak) değerlendirmede öğrencilerin bir programda ne derece başarılı olduklarına karar

verirken norm grubuna göre ya da testi aldığı grubun nasıl performans gösterdiğine göre değil, öğrencinin

belirlenmiş bir standarta ulaşıp ulaşmadığına, veya öğrenmenin kriterlerinin neresinde olduğuna göre

karar verilir.

Norm-referanslı (bağıl) değerlendirmeyi savunanların yanıldıkları bir nokta kriter-referanslı

(mutlak) değerlendirme sisteminde başarıya mutlak gözle bakıldığıdır. Kriter-referanslı (mutlak)

değerlendirmede de öğrenciler seviyesi tabii ki görecelidir ancak kriter-referanslı (mutlak)

değerlendirmenin öğrencileri değerlendirme yaklaşımında görecelilik yoktur. Dolayısıyla mutlak olan

öğrenci başarısı değil her sınıfta ve her öğrenci için değişmeyen not ölçeği ve nasıl

değerlendirilecekleridir.

Popham’a göre(1976) kriter-referanslı (mutlak) bir test geliştirilirken veya öğrencinin test

performansını anlamaya çalışırken anahtar nokta ilgili ders veya konunun davranış içeriğinin çok iyi

tanımlanmasıdır. Her konunun sonunda, ünite sonunda ya da her ay değerlendirme yapılacaksa her

bölümün içeriğini kapsar nitelikte testler geliştirilmelidir. Bunun yanısıra testin uzunluğunun ne olacağı

ve toplam kaç testin hazırlanması gerektiğine önceden karar verilmelidir. Kriter referansli test maddeleri

hiyerarşik bir yapı gösteren hedefler doğrultusunda hazırlanır. Öğrencilerin hedeflerini açık olarak

bilmeleri ve bilinçli hazırlanmaları için her sınıf veya derece için öğrenme kontratları doğrultusunda

taraflar bilgilendirilir. Öğretmenin öğretmesi gereken ve öğrencinin kavraması gerekenler önceden

belirlenmiştir.

Norm-referanslı (bağıl) değerlendirme literatürde geleneksel değerlendirme olarak adlandırılırken

kriter-referanslı değerlendirme bu tür geleneksel yakalşımlara alternatif olarak sunulan değerlendirme

sistemiş olarak karşımıza çıkar. Kriter-referanslı (mutlak) değerlendirme tam öğrenme modelleri,

kişiselleştirilmiş öğrenme, yetenek temelli öğretme (competency-based instruction) gibi modern öğrenme

modellerinin de başvurduğu değerlendirme sistemidir. Bloom’ un Tam Öğrenme (Mastery Learning)

modeli ve Keller’ın Kişiselleştirilmiş Öğrenme Modeli (PSI = Personalized System of Instruction) kriter

referanslı değerlendirmeyi kullanan tam öğrenme modelleridir. Öğretimi izleme ve eksikleri tesbit amaçlı

kullanılan formatif değerlendirme araçları tam öğrenme modellerinde kritiktir ve bu formatif araçlar not

vermeyi değil öğrenmeyi sağlamayı amaçladıklarından kriter-referanslıdırlar. Bu modellere göre dersin

içeriğinin çok özenle seçilmesi ve öğrenciye öğretilmesi gereklidir ve bununla da kalmayıp aşama aşama

öğrenmelerin gerçekleşip gerçekleşmediği sık uygulanan quizler yardımıyla değerlendirilmelidir. Sonuçlar

doğrultusunda öğrenme eksikliği olan konularda ek çalışmalar yoluyla takviyeler yapılır ve ilgili konu

9

tekrar değerlendirilir. O halde bu iki tam öğrenme modelinin ortak noktası değerlendirmenin öğrenmeyi

zenginleştirmek ve tam öğrenmeyi sağlamak amacıyla yapılmasıdır.

Genellikle kağıt-kalem testleri olan, öğrencilerin performansını ölçmeyi hedefleyen testler olan

performans temelli testler de kriter efernaslı değerlendirmeden faydalanır. Bu testler öğrencinin yazma

becerisi, bilgisayar kullanımı, ve sanat becerisini ortaya koymasına gerek duyulan alanlardaki başarının

değerlendirilmesi amaçlı kullanılırlar (Miller-Whitehead, 2001).

Kriter-referanslı (mutlak) değerlendirmeyi kullanan kişiselleştirilmiş öğretimde ise öğrenciye

sınıf listesinde bir numara olarak değil güçlü ve zayıf noktaları olan farklı zaman sürecinde kavrayan

bireyler olarak yaklaşılır. Norm-referanslı değerlendirme doğası gereği öğrencileri sıralamayı

öngördüğünden diğerlerine göre başarısız olmanın doğuracağı stres ve psikolojik baskıdan dolayı bu tür

bir yaklaşımın tercih edeceği değerlendirme türü de olamaz. Kriter-referanslı (mutlak) değerlendirme

öğrenciyle ve öğrencinin biereysel performansı ile ilgilenir öğrencinin göreceli performansını bilmek

kişiselleştirlmiş öğretme yaklaşımı çerçevesinden bakıldığında öğrencini öğrenmesine pek bir katkı

sağlamaz.

Breese (1976)’e göre bir öğrencinin bir konuda veya davranışı öğrenip öğrenmediği hakkındaki

yeterliliği diğer öğrencilerin başarı veya başarısızlığından bağımsız olarak ölçülmelidir. Kriter-referanslı

(mutlak) değerlendirmede test maddlerinin dersin hedefleri ile örtüşmesi gerekmektedir (Mione, 1977).

Testin kapsam geçerliliğinin olması kriter-referanslı (mutlak) bir testin vazgeçilmez özelliğidir (Linehan,

1976). Kriter-referanslı (mutlak) değerlendirme sınıfta kullanıldığında uygulayacak öğretmenin becerikli

bir eğitimci olması, hedefleri iyi belirleyip o hedefleri gerçekleştirmeye dönük öğretme ortamları

hazırlayabilmesi ve test maddelerinin hedeflerle örtüşür nitelikte olması gerekir. Yapılması gereken teste

göre öğretme değil, testin öğretileni ölçer nitelikte olmasıdır. Kriter-referanslı (mutlak) değerlendirmenin

en çok üzerinde durulan konusu kapsam geçerliliğinin sağlanmasıdır. Çünkü test maddeleri dersin

hedeflerini güvenilir olarak ölçer nitelikte hazırlanmadığı durumda sonuçlar ta güvenilir olmayacaktır.

Norm-referanslı testlerin tercih edilme sebeplerinden en önemlisi sonuçların yordanmasında

istatistiğin kullanılabilmesidir. Örneğin, norm-referanslı bir testin sonucuna göre ögrencinin sınıf

ortalamasının altında veya üzerinde olduğunu söylemek mümkündür. Öyleki sonuçlar standart değerler

olarak ifade edildiğinde öğrencinin sınıf ortalamasının kaç standart sapma altında veya üstünde olduğunu

belirtmek te mümkündür. Kriter-referanslı (mutlak) bir testin sonucunda öğrencinin kapsamın ne

kadarını başardığına dönük bilgi edinirken, norm-referanslı değerlendirme öğrencinin diğerlerine göre

nasıl olduğu hakkında bilgi verir. Ancak Epstein ve Knerr (1976) ‘e göre aynı istatistik yöntemlerin

istenildiği takdirde kriter-referanslı (mutlak) bir teste uygulanması pekala mümkündür. Öğrencinin notu

tesbit edilirken kullanılmamak kaydıyla öğrenci diğer öğrencilere göre performansı hakkında

10

bilgilendirilebilir. Aritmatik ortalama ve standart sapmayı hesaplamak, sınav sonrasında sınıfa birbirlerine

göre ne durumda olduklarını bir çan eğrisi üzerinde göstermek mümkündür.

KARŞILAŞTIRMA

Sınıf içi değerlendirmeler eğri üzerinden not vererek yapıldığında sınıf ortalaması not dağılımını

belirlediğinden öğrencilerin bu sistemde gevşedikleri ve performanslarının düştüğü bilinmektedir ( ).

Öyleki internet üzerinden “the grades will not be assigned on the curve” (bu derste notlar eğri üzerinden

verilmeyecektir) cümlesi yazılarak bir tarama yapıldığında ulaşılan 52000 öğrenme kontratı yoluyla

öğretim görevlisinin öğrencilerin dikkatini çekmek için bu notu ekledikleri görülür. Bu arada yapılmak

istenen öğrencilere yüksek not almak için ya da geçmek için çalışmaları gerekecekleri sınıfın

performansının onların değerlendirilmesinde rol oynamayacağı konusunda bilgi vermektir. Başarı ya da

başarısızlık göreceli değildir. Ayşe’nin notu sınıf ortalamasının neresinde olduğuna göre değil, Ayşenin

tüm sorulardan kaçına doğru cevap verdiğine göre belirlenir. Yapmaya çalıştığımız kötülerin en iyisini

seçmek değil, standartları önceden belirlenmiş, hedefleri tesbit edilmiş dersimizin içeriğinin öğrenci

tarrafından ne derece kavrandığının yordanmasıdır. Bağıl değerlendirmeyi savunanların en önemli

savunması bu değerlendirme sisteminin öğretme eksikliğinden doğabilecek başarısızlıktan dolayı

öğrenciyi cezalandirmadığıdır. Ancak sebep ne olursa olsun geçer not alacak standartta öğrenmeyi

gerçekleştiremeyen öğrencileri çoğunluk aynı durumda diye hakettiklerinden daha yüksek bir not vererek

ödüllendirmek öğretme eksikliğinin üzerine sünger çekmektir.

Norm referans değerlendirme literatürde sık olarak katı eleştiriler almıştır. Gentile (1971) ‘a göre

standart testler sadistik, etik olmayan, istatistik olarak sağduyulu olmayan, ve dersin hedefleriyle

bağlantısı kopuk olan testlerdir. Gentile (1971) kriter-referanslı (mutlak) testleri bu tip yanlışları olmayan

bir değerlendirme aracı olarak norm-referanslı testlere alternatif olarak sunar.

Bağıl değerlendirme ile kriter-referanslı (mutlak) değerlendirme arasında tercih yapılacağı zaman

asıl olan değerlendirme sonuçlarının ne amaçla kullanılacağına karar verilmesidir. Sınıf düzeyinde bağıl

değerlendirmeyi kullanmak akıllıca olur mu? Bu sorulara cavap bulmaya çalışılmalıdır. Ölçme ve

değerlendirmenin amacı öğrencileri daha az zamanda daha çok doğru yapmaya yöneltmek, hedefe

odaklanmış yarışmacı zihniyetler geliştirmek mi olmalı, yoksa değerlendirmenin amacı öğrenciyi daha iyi

öğrenmeye teşvik etmek mi olmalıdır karar verilmelidir. Hiç kuşkusuz ki öğrencilerin yarışmasını,

kıyasıya performanslarının en iyisini sergılemelerini istediğimiz durumlar olacaktır. Ancak sınıf içi

değerlendirmeler bu kapsam dışında tutulmalıdır. Bağıl değerlendirmeyi uygulamak için gerekli olan

notların normal dağılım göstermesi şartını sayısı pekçok durumda 50 ‘yi geçmeyen sınıflarda sağlamak

mümkün değildir. Öğrencileri tek bir sınavda kendilerinin en iyisini göstermek için olumlu yönde motive

etmek zorken her sınavda böyle bir motivasyonla performanslarını göstermeleri akıl karı değildir. Sistemi

11

kavrayan öğrenciler bir süre sonra ortalama civarında performans göstermekle yetinecekler ve bu da

standartların düşmesi ile sonuçlanacaktır. Norm-referanslı değerlendirme yarışmayı teşvik eder ve

öğrencileri diğerlerinden daha iyi performans göstermeye motive eder. Ancak bu tip değerlendirmeyi

üniversite sınavında alt yüzdelik dilimden öğrencilerini alan üniversitelerimizde kullanıldığını düşünürsek

aynı etkiyi yapacağından emin olamayız.

Pimsleur (1975) kriter-referanslı (mutlak) değerlendirme ile norm-referanslı değerlendirmeyi

karşılaştırdığı çalışmasında tercihini öğrencinin performansını durumdan duruma değişmeyen bir standarta

göre kıyaslayan daha bireyselleştirilmiş bir yaklaşım olduğundan dolayı kriter-referanslı (mutlak)

değerlendirme yönünde kullanmıştır. Kriter-referanslı değerlendirme öğrencileri birbirleriyle yarışmaya

değil, herkesi yapabileceğinin en iyisini sergilemeye teşvik eder. Başkalarından daha iyi yapma arzusu

öğrenciyi kamçılar, ancak strese de neden olduğu bilinmektedir. Kriter-referanslı (mutlak) değerlendirme

özellikle özel ihtiyaçlı öğrenciler için daha az strese sebep olması ve öğretmenin onların ulaşabileceği

daha realistik hedefler tesbit etmesine alan bırakması açısından da faydalıdır (Pimsleur, 1975).

Norm-referanslı değerlendirme ve kriter-referanslı (mutlak) değerlendirme kıyaslandığında bu iki

değerlendirmenin temel aldığı felsefelere göz atmak gerekecektir. Hively (1974)’ye göre kriter-referanslı

(mutlak) değerlendirme temelini öğrenme teorilerinden alır ve gelişmeyi değerlendirmeye dönük çıktılar

üzerinden çalışır. Norm-referanslı değerlendirmede ise öğrenciler arasındaki farklılıklar temel alınır ve

içeriğin yapısından ziyade, asıl belirleyici öğrenciler arasındaki farklılıkların sonuca yansımasıdır. Kriter-

referanslı (mutlak) değerlendirmede öğrenci daha dersi almaya başlamadan öncelikle ders içeriğinin

seçimi ve nasıl öğretileceğinin planlanması büyük önem taşır. Öğrenciye yüklenilecek bilgi ve bu bilginin

dozu çok önemlidir. Uygulancak testler bu özenle belirlenen içeriği kapsar nitelikte olmalıdır. Verilen

cevaplara göre içeriğin ne kadarına ulaşıldığı tesbit edilebilir ve dönem içinde ve sonrasında gerekli

konular daha dikkatle gözden geçirilebilir. Hively’ye göre (1974) norm-referanslı değerlendirme başarıyı

yordama ve daha iyi olanları seçme gibi durumlarda etkili olabilir ancak öğretimi değerlendirme amaç

olduğunda kriter-referanslı (mutlak) değerlendirme daha etkili bir araçtır. Kriter veya norm-referanslı

değerlendirme sık sık kullanılmakla birlikte norm referans değerlendirme bunlardan geleneksel olarak

anılagelenidir ve modern akımların büyük çoğunluğu kriterleri referanslı değerlendirmelerin kullanımını

teşvik eder.

Duffey (1978) normları referans alan değerlendirmenin öğretmeyi geliştirmek üzere öğretimdeki

eksiklikleri belirlemek amaçlı yoğun olarak kullanımı sonucunda özel öğrencilerin dezavantajlı duruma

düştüklerini belirtmektedir. Duffey’ye göre kriter-referanslı (mutlak) değerlendirme bu amaca doğası

gereği daha iyi hizmet edeceğinden, kriter-referanslı (mutlak) modeller üzerinde yoğunlaşılmalıdır.

Anastasi(1988)’ye göre normları referans alan değerlendirme bir öğrencinin performansını diğer

öğrencilerin performansı ile kıyaslamaya yararken kriter-referanslı (mutlak) değerlendirme testi alan

12

öğrencilerin başkalarına göre nasıl oldukları üzerinde değil neyi yapabilecekleri, ne bildikleri üzerinde

odaklanır.

Bilindiği üzere ACT, SAT, GRE, TOEFL gibi norm-referanslı dünyaca tanınmış, geçerliliği ve

güvenilirliğiyle kendini Kabul ettirmiş testler vardır. Ancak bu demek değildir ki kriter-referanslı

(mutlak) standart testler yoktur. Bond’a (1995) göre sonuçların tüm öğrenciler ve okullar için aynı şekilde

yorumlanabilmesi için ister norm ister kriter-referanslı (mutlak) olsun her iki değerlendirme sisteminde de

testler standartlaştırılabilir. Burada önemsenmesi gereken nokta standart test ile standartları temel alan test

arasındaki farkın vurgulanmasıdır. Ilkinde hedef öğrencileri sıraya koyup nerede olduklarını tesbit

etmekken ikinci de amaç öğrencinin testin belirlediği standartlardan ne kadarına ulaştığını bulmaktır.

Hazırlanırmasında norm-referanslı testlerin içeriği maddelerin öğrencileri erişi düzeylerine göre ne kadar

iyi sıraladığına göre belirlenirken, kriter-referanslı (mutlak) testlerde maddelerin ne derece önem arzeden

öğrenme hedeflerini yansıttır nitelikte olduklarına göre yani yıllık plan içindeki önemine göre belirlenir.

Bond(1995) norm-referanslı testlerin son yıllarda basit, temel becerileri ölçtükleri gerekçesiyle eleştiri

aldığını öne sürmektedir. Diğer yandan kriter-referanslı (mutlak) testler yıllık plana bağlı olarak işlemekte

ve öğrencinin öğretilmek istenenin ne kadarına ulaştığı yolunda bilgi vermektedir. Bond’un tesbiti

tamamen yanlış olmasa da açıklama desteğiyle daha iyi anlaşılabilir. Norm-referanslı testlerde zaman

zaman çok basit sorular sorulduğu ve bu yüzden notların bu basit sorulardan kolayca kazanılmış

puanlardan dolayı şişirilmiş olacağı doğrudur. Ancak norm-referanslı bir test hazırlarken testçinin hedefi

puanların normal dağılım göstereceği bir test hazırlamaktır. Sorular aynı seviyede olursa bunu sağlamak

güç olacağından normal ve üzeri seviyedeki herkesin doğru cevaplayacaklarını bile bile bazen çok kolay

sorular da teste dahil edilmektedir. Norm-referanslı testlerin sonuçlarının normal dağılım göstermesi için

testi oluşturan maddelerin de güçlük seviyelerinin normal dağılım göstermesi gereklidir. Güçlük derecesi

normal olan bir testte maddelerin çoğunluğu orta güçlükteyken az sayıda çok zor ve çok kolay maddelere

yer verilir. Buradaki amaç öğrencileri sıralamak bilenleri bilmeyenlerden ayırtetmektir. Testin

ayırtediciliğini artırayım derken kapsamı tam olarak ifade etmeyen öğretilmemiş noktaları test eden

sorular hazırlamak mümkün olduğu gibi, devam eden bir normal dağılım oluşturayım derken ayırtediciliği

olmayan ancak sınıf ortalamasını artırarak başarıyı olduğundan yüksek gösteren sorular sormak ta

mümkündür. Her iki durumda norm-referanslı değerlendirmenin problemleri arasında yer alır. Bond

(1995) ABD’ de eyaletlerin 1994’te norm ya da kriter referanslı değerlendirme oranlarını sunmuştur ve

buna göre 31 eyalet norm-referanslı değerlendirmeyi, 33 kriter referanslı değerlendirmeyi ve 22 eyalet her

ikisini de kullanmaktadır. Var olan durumu belirtmekle birlikte Bond eyaletlerin değerlendirme

stratejilerini değerlendirme amaçlarına, değrlendirilecek içeriğe ve değerlendirme sonuçlarının nasıl

kullanılacağına ne tür çıkarımlar yapılmak istendiği düşünülerek yapmaları gerektiğini vurgular.

13

Modern yaklaşımlara göre eğitim sürekli bir aktivitedir ve test vermedeki amaç eksiği görmek ve

takviye yaparak gidermektir ve kriter-referanslı (mutlak) değerlendirme bu amaca en iyi hizmet eden

değerlendirme yaklaşımıdır.

GENEL DEĞERLENDİRME

Literatürde `geleneksel` olarak anılagelmiş olan norm-referanslı değerlendirme yani “Bağıl

değerlendirme” ülkemiz üniversitelerinde son on yılda kullanılmaya başlanmıştır. Kullanan

üniversitelerimizin internet üzerinden sunduğu bilgilere bakılırsa Bağıl değerlendirmenin tercih

edilmesinin nedenlerinden birisi de dünyaca ünlü ACT, GRE, TOEFL gibi standart sınavlarda

kullanılmasıdır. Norm-referanslı (bağıl) değerlendirmenin çok sayıda öğrencinin katıldığı standart bir

sınavın sonucunu değerlendirmekte kullanıldığında başarılı sonuçlar verdiği kuşku götürmez. Ancak çoğu

zaman öğretim görevlisi tarafından hazırlanan ve küçük sınıflara uygulanan sınav souçlarını

değerlendirmekte kullanıldığında bağıl değerlendirme isabetli yordamalarda bulunamaz. Dolayısıyla

değerlendirmenin norm-referanslı (bağıl) veya kriter-referanslı (mutlak) yollardan yapılması sınav

sonuçlarının kalitesini artırmaz. Bağıl değerlendirme istatistiğin gücünden yararlanarak başarısızlığı

manipüle edebilir. Ancak eğitimin çıktısı olan öğrenciler iş hayatına atıldığında, verdiğimiz eğitimin

kalitesi ortaya çıkacaktır. Bağıl dğerlendirmeler standart testler tarafından tercıh edilmektedir. Ülkemizde

üniversite öğrenciliği eleme sisteminden geçerek kazanılmış bir haktır ve öğrencileri tekrar gruplamak

üstün seviyedekiler veya normalin altındakiler gibi gruplara ayırmak, seviyelerine göre özel öğretim

uygulamak amacımız olmadığına göre dramatik bir değişiklik yaparak bağıl değerlendirme sistemine

geçmek için gerek teknik, gerek mantık açısından yeterli nedenimiz yoktur.

Dünyanın eğilimi her iki değerlendirme türünü birlikte kullanmak veya kullanımı mümkün olduğu

durumlarda kriter referanslı değerlendirmeyi norm-referanslı değerlendirmeye tercih etmek yönündeyken

ülkemizde bir üniversitenin değerlendirme sistemini merkezi bir sistemle norm-referanslı

değerlendirmeye terketmek akıl alır bir karar değildir. Norm-referanslı değerlendirmenin nahoş sonuçları

kriter-referanslı (mutlak) değerlendirmenin önünü açmıştır ve dolayısyla modern ve sürekli gelişen sınıf

düzeyindeki değerlendirmeler için biçilmiş kaftan olan kriter refernaslı değerlendirmeler her alanda

gelişerek kendini isbatlamaya devam etmektedir. Normları referans alan değerlendirme çoğu durumda

binlerce kişinin katıldığı sınavlarda sınırlı kontenjanlara öğrenci yerleştirmek ya da öğrencilerin sınıf

geçmek ya da bir programa girmek için belli koşulları sağlayıp sağlamadıklarını yordamak amacıyla

kullanılmaya elverişlidir ve ancak bu koşullarda kullanıldığında alınan sonuçlar normale yakın bir dağılım

gösterecek ve yapılacak istatistiksel yordamalar ancak ve ancak bu koşullarda manidar olacaktır. Sınıf içi

değerlendirmenin öncelikli amacı hiçbir zaman belli bir oranda A, B, C vermek olmamıştır. Eğitimciler

14

olarak her öğrenciyi yapabileceğinin en iyisini öğretmek ve öğretilen materyalin ne kadarına erişildiğini

kontrol etmenin asıl hedefimiz olduğu unutulmamalıdır.

REFERANSLAR

Aviles, C. B. (2001). Grading with norm-referenced or criterion-referenced measurements: to curve or not

to curve, that is the question. Social Work Education, 20 (5), 603-609.

Bond, L. A. (1995). Norm-Referenced Testing and Criterion-Referenced Testing: The Differences in

Purpose, Content, and Interpretation of Results. ERIC Number: ED402327.

Bresee, Clyde W. (1976). On "Grading on the Curve". Clearing House, 50(3), 108-118.

Brandt, R. (2003). Don’t Blame the Bell Curve. Leadership, 32 (3), 18-20.

Childs, R. (1976). Norm Referenced Testing and the Standard Scores. ERIC Number:ED169099.

Doolittle, P. E. (1999). Assessment, grading, and student achievement. Virginia Ploytechnic and State

University. http://edpsychserver.ed.vt.edu/resources/pdf/assessment7.pdf.

Duffey, J. B. (1978). Educational diagnosis with instructional use. Exceptional Children, 44(4), 246-251.

Epstein, K. I. & Knerr, C. S. (1976). Criterion-Referenced Test Interpretations of "Classical"

Measurement Theory. ERIC Number: ED126154.

Gentile, J. R. (1971). Toward Excellence in Teaching: Grading Practices. ERIC Number: ED061264.

Glaser, R. & Klaus, D. (1962). Proficiency measurement: Assessing human performance. In: R. Gagne

(Ed.), Psychological principles in system development. New York: Holt, Rinehart, and Winston.

Hively, W. (1974). Introduction to domain-referenced testing. Educational Technology, 14(6), 5-10.

Hunt, K. (1997). The Evils of Grading on a Curve. University of Phoenix Nevada Campus.

http://www.drkenhunt.com/pubs/15.htm.

Linehan, M. M.(1976). Content Validity in Behavioral Assessment. ERIC Number: ED152850.

Miller-Whitehead, M. (2001). Practical Considerations in the Measurement of Student Achievement..

ERIC Number: ED457244.

Mione, S. A. (1977). Criterion-Referenced Testing: A Critical Perspective. ERIC Number: ED147757.

Pimsleur, P. (1975). Criterion vs. Norm-referenced Testing. Language Association Bulletin ,

27(1), 21-24.

Popham, W. J. (1976). The Development of Criterion-Referenced Tests: Technical Considerations. ERIC

Number: ED173383.