Analisis Butir Soal

27
http://evaluasipendidikan.blogspot.com/search/label/ Pengantar%20Evaluasi Analisis Butir Soal untuk melakukan analisis terhadap sebuah butir soal ada dua pendekatan yang bisa digunakan yaitu dengan teori tes klasik dan teori respon butir. selain itu, soal juga dapat di analisis dengan menggunakan analisis kualitatif (teoritis) dan kuantitatif (empiris). Insya Allah penulis akan sedikit membahas keempat hal tersebut. akan tetapi untuk saat ini, penulis akan membahas analisis soal dengan cara kualitatif atau teoritis. Analisis secara kualitatif dilakukan dengan melakukan penelaahan terhadap setiap butir soal dari aspek materi, konstruksi dan bahasa. Aspek materi yang ditelaah berkaitan dengan substansi keilmuan yang ditanyakan dalam butir tes serta tingkat kemampuan yang sesuai dengan tes. Analisis konstruksi dimaksudkan untuk melihat hal-hal yang berkaitan dengan kaidah penulisan tes. Analisis bahasa dimaksudkan untuk menelaah tes berkaitan dengan penggunaan bahasa Indonesia yang baik dan benar menurut Ejaan Yang Disempurnakan (EYD). Telaah secara kualitatif dilakukan oleh tiga orang yang memiliki kompetensi sesuai dengan aspek materi konstruksi dan bahasa. Setiap penelaah melakukan analisis terhadap setiap butir soal berdasarkan kriteria yang telah ditetapkan sebelumnya dengan menuliskan huruf “Y” jika butir sesuai dengan kriteria dan huruf “T” jika butir tidak sesuai dengan kriteria yang telah ditetapkan. Hasil telaah kemudian dirangkum untuk selanjutnya ditentukan kualitas butir secara teoretis dengan menggunakan kriteria sebagai berikut:

Transcript of Analisis Butir Soal

Page 1: Analisis Butir Soal

http://evaluasipendidikan.blogspot.com/search/label/Pengantar%20Evaluasi

Analisis Butir Soal untuk melakukan analisis terhadap sebuah butir soal ada dua pendekatan yang bisa digunakan yaitu dengan teori tes klasik dan teori respon butir. selain itu, soal juga dapat di analisis dengan menggunakan analisis kualitatif (teoritis) dan kuantitatif (empiris). Insya Allah penulis akan sedikit membahas keempat hal tersebut. akan tetapi untuk saat ini, penulis akan membahas analisis soal dengan cara kualitatif atau teoritis.

Analisis secara kualitatif dilakukan dengan melakukan penelaahan terhadap setiap butir soal dari aspek materi, konstruksi dan bahasa. Aspek materi yang ditelaah berkaitan dengan substansi keilmuan yang ditanyakan dalam butir tes serta tingkat kemampuan yang sesuai dengan tes. Analisis konstruksi dimaksudkan untuk melihat hal-hal yang berkaitan dengan kaidah penulisan tes. Analisis bahasa dimaksudkan untuk menelaah tes berkaitan dengan penggunaan bahasa Indonesia yang baik dan benar menurut Ejaan Yang Disempurnakan (EYD).

Telaah secara kualitatif dilakukan oleh tiga orang yang memiliki kompetensi sesuai dengan aspek materi konstruksi dan bahasa. Setiap penelaah melakukan analisis terhadap setiap butir soal berdasarkan kriteria yang telah ditetapkan sebelumnya dengan menuliskan huruf “Y” jika butir sesuai dengan kriteria dan huruf “T” jika butir tidak sesuai dengan kriteria yang telah ditetapkan.

Hasil telaah kemudian dirangkum untuk selanjutnya ditentukan kualitas butir secara teoretis dengan menggunakan kriteria sebagai berikut:

a. Butir tes yang baik yaitu butir yang memenuhi semua kriteria yang telah ditentukan.

b. Butir tes yang kurang baik yaitu butir yang hanya memenuhi sebanyak-banyaknya 3 kriteria aspek konstruksi serta 1 kriteria aspek materi dan bahasa.

c. Butir tes yang tidak baik yaitu butir yang tidak memenuhi semua kriteria yang telah ditetapkan pada aspek materi 1 dan 3, atau lebih dari 3 untuk aspek konstruksi serta lebih dari 1 kriteria pada aspek bahasa.

Dari rangkuman hasil telaah kualitatif selanjutnya dapat ditentukan butir mana yang sudah atau belum memenuhi kriteria pada aspek materi, konstruksi dan bahasa. Dengan demikian dapat diambil kesimpulan tentang butir yang baik dan tidak baik.

Page 2: Analisis Butir Soal

Berikut contoh check list analisis kualitatif:

a. Materi 1. Tes sesuai indikator 2. Pilihan jawab homogen dan logis 3. Hanya ada satu kunci jawaban yang tepat b. Konstruksi 4. Pokok tes dirumuskun secara singkat dan jelas 5. Rumusan pokok tes dan pilihan jawaban 7. Pokok tes tidak memberi petunjuk ke kunci jawaban 8. Pokok tes bebas dari pernyataan yang bersifat negatif ganda 9. Gambar/grafik/table diagram dan sejenisnya jelas berfungsi 10.Panjang rumusan jawaban relatif 11.Pilihan jawaban tidak menggunakan pernyataan "semua jawaban di atas salah" atau "semua jawaban di atas benar". 12.Pilihan jawaban yang berbentuk angka atau waktu disusun berdasarkan urutan besar kecilnya angka atau kronologis 13.Butir tes tidak tergantung pada jawaban sebelumnyac. Bahasa 14.tes menggunakan bahasa yang sesuai dengan kaidah bahasa Indonesia 15.tes menggunakan bahasa yang komunikatif 16.tes tidak menggunakan bahasa yang berlaku setempat 17.pilihan jawaban tidak mengulang kata/kelompok kata yang sama yang bukan merupakan satu kesa

Reliabilitas: Pendekatan Tes Ulang Reliabilitas diterjemahkan dari kata reliability. Menurut John M. Echols dan Hasan Shadily (2003: 475) reliabilitas adalah hal yang dapat dipercaya. Popham (1995: 21) menyatakan bahwa reliabilitas adalah "...the degree of which test score are free from error measurement". Dalam pandangan Brennan (2001: 295) reliabilitas merupakan

karakteristik skor, bukan tentang tes ataupun bentuk tes. Menurut Sumadi Suryabrata (2004: 28) reliabilitas menunjukkan sejauhmana hasil pengukuran dengan alat tersebut dapat dipercaya. Hasil pengukuran harus reliabel dalam artian harus memiliki tingkat

konsistensi dan kemantapan. Dalam pandangan Aiken (1987: 42) sebuah tes dikatakan reliabel jika skor yang diperoleh oleh peserta relatif sama meskipun dilakukan

pengukuran berulang-ulang. Untuk memperoleh skor yang sama, maka tidak boleh ada kesalahan pengukuran. Dengan demikian, keandalan sebuah alat ukur dapat dilihat dari dua petunjuk yaitu kesalahan baku pengukuran dan koefisien reliabilitas. Kedua statistik tersebut masing-masing memiliki kelebihan dan keterbatasan (Feldt & Brennan, 1989:

105)

Page 3: Analisis Butir Soal

Berdasarkan sejarah, reliabilitas sebuah instrumen dapat dihitung melalui dua cara yaitu kesalahan baku pengukuran dan koefisien reliabilitas (Feldt & Brennan: 105). Kedua

statistik di atas memiliki keterbatasannya masing-masing. Kesalahan pengukuran merupakan rangkuman inkonsistensi peserta tes dalam unit-unit skala skor sedangkan

koefisien reliabilitas merupakan kuantifikasi reliabilitas dengan merangkum konsistensi (atau inkonsistensi) diantara beberapa kesalahan pengukuran.

Dalam kerangka teori tes klasik, suatu tes dapat dikatakan memiliki reliabilitas yang tinggi apabila skor tampak tes tersebut berkorelasi tinggi dengan skor murninya sendiri. Interpretasi lainnya adalah seberapa tinggi korelasi antara skor tampak pada dua tes yang pararel. (Saifuddin Azwar, 2006: 29). Reliabilitas menurut Ross E. Traub (1994: 38) yang

disimbolkan oleh dapat didefinisikan sebagai rasio antara varian skor murni dan varian skor tampak . Secara matematis teori di atas dapat ditulis :

Reliabilitas alat ukur tidak dapat diketahui dengan pasti tetapi dapat diperkirakan. Dalam mengestimasi reliabilitas alat ukur, ada tiga cara yang sering digunakan yaitu (1)

pendekatan tes ulang, (2) pendekatan dengan tes pararel dan (3) pendekatan satu kali pengukuran.

Pendekatan tes ulang merupakan pemberian perangkat tes yang sama terhadap sekelompok subjek sebanyak dua kali dengan selang waktu yang berbeda. Asumsinya

adalah bahwa skor yang dihasilkan oleh tes yang sama akan menghasilkan skor tampak yang relatif sama. Estimasi dengan pendekatan tes ulang akan menghasilkan koefisien stabilitas. Untuk memperoleh koefisien reliabilitas melalui pendekatan tes ulang dapat

dilakukan dengan menghitung koefisien korelasi linear antara distribusi skor subyek pada pemberian tes pertama dengan skor subyek pada pemberian tes kedua. Pendekatan tes

ulang sangat sesuai untuk mengukur ketrampilan terutama ketrampilan fisik.

Misalnya seorang guru hendak melihat reliabilitas tes yang telah dibuatnya. Setelah melakukan dua kali pengukuran didapatkan skor tes sebagai berikut:

Page 4: Analisis Butir Soal

Koefisien reliabilitas test di atas dapat dihitung dengan menggunakan formula korelasi produk momen dari Pearson sebagai berikut:

Dengan demikian, korelasi sebesar 0,954 menggambarkan bahwa reliabilitas tes cukup tinggi.

Salah satu kelemahan mendasar dari teknik test-retest adalah carry-over effect. Masalah ini disebabkan oleh adanya kemungkinan pada test yang kedua dipengaruhi oleh test pertama. Misalnya, jika peserta tes masih ingat dengan soal-soal dan bahkan jawaban ketika dilakukan test pertama. Hal ini dapat meningkatkan korelasi serta overestimasi

terhadap PXX’.

Pengukuran, Penilaian dan Evaluasi Pendidikan a. Pengukuran

Page 5: Analisis Butir Soal

Pengukuran dapat diartikan dengan kegiatan untuk mengukur sesuatu. Pada hakekatnya, kegiatan ini adalah membandingkan sesuatu dengan atau sesuatu yang lain (Anas Sudijono, 1996: 3) Jika kita mengukur suhu badan seseorang dengan termometer, atau mengukur jarak kota A dengan kota B, maka sesungguhnya yang sedang dilakukan adalah mengkuantifikasi keadaan seseorang atau tempat kedalam angka. Karenanya, dapat dipahami bahwa pengukuran itu bersifat kuantitatif

Maksud dilaksanakan pengukuran sebagaimana dikemukakan Anas Sudijono (1996: 4) ada tiga macam yaitu : (1) pengukuran yang dilakukan bukan untuk menguji sesuatu seperti orang mengukur jarak dua buah kota, (2) pengukuran untuk menguji sesuatu seperti menguji daya tahan lampu pijar serta (3) pengukuran yang dilakukan untuk menilai. Pengukuran ini dilakukan dengan jalan menguji hal yang ingin dinilai seperti kemajuan belajar dan lain sebagainya.

Dalam dunia pendidikan, yang dimaksud pengukuran sebagaimana disampaikan Cangelosi (1995: 21) adalah proses pengumpulan data melalui pengamatan empiris. Proses pengumpulan ini dilakukan untuk menaksir apa yang telah diperoleh siswa setelah mengikuti pelajaran selama waktu tertentu. Proses ini dapat dilakukan dengan mengamati kinerja mereka, mendengarkan apa yang mereka katakan serta mengumpulkan informasi yang sesuai dengan tujuan melalui apa yang telah dilakukan siswa.Menurut Mardapi (2004: 14) pengukuran pada dasarnya adalah kegiatan penentuan angka terhadap suatu obyek secara sistematis. Karakteristik yang terdapat dalam obyek yang diukur ditransfer menjadi bentuk angka sehingga lebih mudah untuk dinilai. aspek-aspek yang terdapat dalam diri manusia seperti kognitif, afektif dan psikomotor dirubah menjadi angka. Karenanya, kesalahan dalam mengangkakan aspek-aspek ini harus sekecil mungkin. Kesalahan yang mungkin muncul dalam melakukan pengukuran khususnya dibidang ilmu-ilmu sosial dapat berasal dari alat ukur, cara mengukur dan obyek yang diukur.

Pengukuran dalam bidang pendidikan erat kaitannya dengan tes. Hal ini dikarenakan salah satu cara yang sering dipakai untuk mengukur hasil yang telah dicapai siswa adalah dengan tes. Selain dengan tes, terkadang juga dipergunakan nontes. Jika tes dapat memberikan informasi tentang karakteristik kognitif dan psikomotor, maka nontes dapat memberikan informasi tentang karakteristik afektif obyek.

b. Penilaian

Penilaian merupakan bagian penting dan tak terpisahkan dalam sistem pendidikan saat ini. Peningkatan kualitas pendidikan dapat dilihat dari nilai-nilai yang diperoleh siswa. Tentu saja untuk itu diperlukan sistem penilaian yang baik dan tidak bias. Sistem penilaian yang baik akan mampu memberikan gambaran tentang kualitas pembelajaran sehingga pada gilirannya akan mampu membantu

Page 6: Analisis Butir Soal

guru merencanakan strategi pembelajaran. Bagi siswa sendiri, sistem penilaian yang baik akan mampu memberikan motivasi untuk selalu meningkatkan kemampuannya.

Dalam sistem evaluasi hasil belajar, penilaian merupakan langkah lanjutan setelah dilakukan pengukuran. informasi yang diperoleh dari hasil pengukuran selanjutnya dideskripsikan dan ditafsirkan. Karenanya, menurut Djemari Mardapi (1999: 8) penilaian adalah kegiatan menafsirkan atau mendeskripsikan hasil pengukuran. Menurut Cangelosi (1995: 21) penilaian adalah keputusan tentang nilai. Oleh karena itu, langkah selanjutnya setelah melaksanakan pengukuran adalah penilaian. Penilaian dilakukan setelah siswa menjawab soal-soal yang terdapat pada tes. Hasil jawaban siswa tersebut ditafsirkan dalam bentuk nilai.

Menurut Djemari Mardapi (2004: 18) ada dua acuan yang dapat dipergunakan dalam melakukan penilaian yaitu acuan norma dan acuan kriteria. Dalam melakukan penilaian dibidang pendidikan, kedua acuan ini dapat dipergunakan. Acuan norma berasumsi bahwa kemampuan seseorang berbeda serta dapat digambarkan menurut kurva distribusi normal. Sedangkan acuan kriteria berasumsi bahwa apapun bisa dipelajari semua orang namun waktunya bisa berbeda.

Penggunaan acuan norma dilakukan untuk menyeleksi dan mengetahui dimana posisi seseorang terhadap kelompoknya. Misalnya jika seseorang mengikuti tes tertentu, maka hasil tes akan memberikan gambaran dimana posisinya jika dibandingkan dengan orang lain yang mengikuti tes tersebut. Adapun acuan kriteria dipergunakan untuk menentukan kelulusan seseorang dengan membandingkan hasil yang dicapai dengan kriteria yang telah ditetapkan terlebih dahulu. Acuan ini biasanya digunakan untuk menentukan kelulusan seseorang. Seseorang yang dikatakan telah lulus berarti bisa melakukan apa yang terdapat dalam kriteria yang telah ditetapkan dan sebaliknya. Acuan kriteria, ini biasanya dipergunakan untuk ujian-ujian praktek.Dengan adanya acuan norma atau kriteria, hasil yang sama yang didapat dari pengukuran ataupun penilaian akan dapat diinterpretasikan berbeda sesuai dengan acuan yang digunakan. Misalnya, kecepatan kendaraan 40 km/jam akan memiliki interpretasi yang berbeda apabila kendaraan tersebut adalah sepeda dan mobil.

c. Evaluasi

Pengukuran, penilaian dan evaluasi merupakan kegiatan yang bersifat hierarki. Artinya ketiga kegiatan tersebut dalam kaitannya dengan proses belajar mengajar tidak dapat dipisahkan satu sama lain dan dalam pelaksanaannya harus dilaksanakan secara berurutan.

Evaluasi Menurut Suharsimi Arikunto (2004: 1) adalah kegiatan untuk mengumpulkan informasi tentang bekerjanya sesuatu, yang selanjutnya

Page 7: Analisis Butir Soal

informasi tersebut digunakan untuk menentukan alternatif yang tepat dalam mengambil keputusan. Dalam bidang pendidikan, evaluasi sebagaimana dikatakan Gronlund (1990: 5) merupakan proses yang sistematis tentang mengumpulkan, menganalisis dan menafsirkan informasi untuk menentukan sejauhmana tujuan pembelajaran telah dicapai oleh siswa. Menurut Djemari Mardapi (2004: 19) evaluasi adalah proses mengumpulkan informasi untuk mengetahui pencapaian belajar kelas atau kelompok.

Dari pendapat di atas, ada beberapa hal yang menjadi ciri khas dari evaluasi yaitu: (1) sebagai kegiatan yang sistematis, pelaksanaan evaluasi haruslah dilakukan secara berkesinambungan. Sebuah program pembelajaran seharusnya dievaluasi disetiap akhir program tersebut, (2) dalam pelaksanaan evaluasi dibutuhkan data dan informasi yang akurat untuk menunjang keputusan yang akan diambil. Asumsi-asumsi ataupun prasangka. bukan merupakan landasan untuk mengambil keputusan dalam evaluasi, dan (3) kegiatan evaluasi dalam pendidikan tidak pernah terlepas dari tujuan-tujuan pembelajaran yang telah ditetapkan sebelumnya. Karena itulah pendekatan goal oriented merupakan pendekatan yang paling sesuai untuk evaluasi pembelajaran.

http://evaluasipendidikan.blogspot.com/2008/03/validitas-tes.html

Validitas Tes Dalam kehidupan sehari-hari, manusia senantiasa dihadapkan pada masalah keakuratan sebuah informasi. Informasi yang diterima manusia setiap hari sangat banyak dengan sumber yang semakin beragam. Koran dan televisi adalah dua sumber informasi utama saat ini. Dengan semakin banyaknya sumber-sumber informasi yang senantiasa berkembang, maka muncul sebuah pertanyaan mendasar tentang sejauhmana informasi yang diperoleh tersebut dapat dipercaya?

Dalam penelitian-penelitian sosial, keakuratan informasi yang diperoleh sangat mempengaruhi keputusan yang akan diambil. Sayangnya, akurasi informasi dalam penelitian-penelitian sosial tersebut tidak mudah diperoleh disebabkan sulitnya mendapatkan operasionalisasi konsep mengenai variabel yang hendak diukur. Untuk mengungkap aspek-aspek yang hendak diteliti, maka diperlukan alat ukur yang baik dan berkualitas. Alat ukur tersebut dapat berupa skala atau tes. Sebuah tes yang baik sebagaimana disampaikan oleh Syaifuddin Azwar (2006 : 2) harus memiliki beberapa kriteria antara lain valid, reliable, standar, ekonomis dan praktis. Dalam Standards for Educational and Psychological Testing validitas adalah "... the degree to which evidence and theory support the interpretation of test scores entailed by proposed uses of tests " (1999: 9). Sebuah tes dikatakan valid jika ia memang mengukur apa yang seharusnya diukur (Allen & Yen, 1979: 95). Dalam bahasa yang hampir sama Djemari Mardapi (2004: 25) menyatakan bahwa validitas adalah ukuran seberapa cermat

Page 8: Analisis Butir Soal

suatu tes melakukan fungsi ukurnya. Menurut Nitko & Brookhart (2007: 38) kevalidan sebuah alat ukur tergantung pada bagaimana hasil tes tersebut diinterpretasikan dan digunakan. Dalam pandangan Samuel Messick (1989: 13) validitas merupakan penilaian menyeluruh dimana bukti empiris dan logika teori mendukung pengambilan keputusan serta tindakan berdasarkan skor tes atau model-model penilaian yang lainJika dikaitkan dengan bidang psikologi, penggunaan validitas dapat dijumpai dalam tiga konteks yaitu validitas penelitian, validitas soal dan validitas alat ukur. Validitas penelitian merupakan derajad kesesuaian hasil penelitian dengan keadaan sebenarnya. Validitas soal berkaitan dengan kesesuaian antara suatu soal dengan soal lain. Sedangkan validitas alat ukur merujuk pada kecermatan ukurnya suatu tes (Sumadi Suryabrata, 2004: 40).Menurut Allen & Yen (1979: 95) validitas tes dapat dibagi kedalam tiga kelompok utama yaitu : (1) validitas isi (content validity), (2) validitas konstruk (construct validity) dan (3) validitas kriteria (criterion related validity). Meskipun idealnya validasi dapat dilakukan dengan memakai semua bentuk validitas tes tersebut, tetapi pengembang tes dapat memilih bentuk validasi dengan melihat tujuan pengembangan tes (Kumaidi, 1994: 58).Validitas isi menunjuk pada sejauhmana isi perangkat soal tersebut mengukur apa yang seharusnya diukur. Dalam kaitannya dengan kegiatan pembelajaran menurut Djemari Mardapi (1996: 22) validitas ini adalah kesesuaian antara materi ujian dan materi yang telah dipelajari. Pengujian validitas isi tidak melalui analisis statistik melainkan analisis rasional yaitu dengan melihat apakah butir-butirnya telah sesuai dengan batasan domain ukur yang telah ditetapkan sebelumnya.Allen & Yen (1979: 95) membagi validitas isi kedalam dua kelompok yaitu face validity (validitas muka) dan logical validity (validitas logis). Validitas muka dapat dicapai jika tampilan tes tersebut telah meyakinkan untuk mengungkap atribut yang hendak diukur. Adapun validitas logis menunjukkan sejauhmana isi tes mengungkapkan representasi dari ciri-ciri atribut yang hendak diukur.Validitas konstruk merujuk pada sejauhmana suatu tes mengukur suatu konstruk teoretik atau trait yang hendak diukurnya (Allen & Yen, 1979: 108) konstruk dalam pengertian ini adalah berkaitan dengan aspek-aspek psikologi seseorang khususnya aspek kognitif, afektif dan psikomotor.Ada beberapa cara yang bisa digunakan untuk menguji validitas konstruk. Misalnya dengan melakukan pencocokan antara aspek-aspek berpikir yang terkandung dalam tes hasil belajar dengan aspek-aspek berpikir yang hendak diungkap oleh tujuan instruksional khusus. Pengujian yang lebih sederhana tentang validitas konstruk adalah malalui pendekatan multi trait multi-method (Saifuddin Azwar 2003: 176). Pendekatan ini akan menghasilkan bukti validitas diskriminan yang ditunjukkan dengan rendahnya korelasi antar skor yang mengukur trait yang berbeda bila digunakan metode yang sama dan validitas konvergen yang ditunjukkan oleh tingginya korelasi skor-skor tes yang mengukur trait yang sama dengan menggunakan metode yang berbeda.Contoh mengenai estimasi koefisien validitas berdasarkan metode multitrait multimethod adalah sebagaimana disampaikan Fred N. Kerlinger (1973:742) tentang matriks hubungan antara sikap sosial. Ada dua instrument berbeda yang digunakan untuk mengukur liberalisme (L) dan konservatisme (C) dalam hubungannya dengan sikap sosial seseorang yaitu dengan pernyataan sikap biasa (metode 1) dan referen (metode 2) menggunakan referensi-referensi sikap seperti sepatah kata atau frase singkat. Korelasi

Page 9: Analisis Butir Soal

antara kedua instrument tersebut disajikan dalam bentuk matriks multitrait-multimethod berikut :

Dalam contoh tersebut secara teoritis dituntut adanya korelasi negative atau mendekati nol antara L dan C. korelasi antara L1 dengan C1 adalah -0,07 serta antara L2 dengan C2 adalah -0,09 yang berarti bahwa keduanya hampir selaras dengan teorinya. Korelasi silang antara L dan C yakni korelasi antara L pada metode 1 dan C pada metode 2 atau antara L1 dan C2 adalah -0,37 dan ini lebih tinggi daripada yang diprediksikan oleh teorinya (-0,30). Maka, dengan perkecualian korelasi silang yang besarnya -0,37 antara L1 dan C2 validitas konstruk dalam skala sikap itu terdukung.Validitas kriteria merupakan validitas yang disusun berdasarkan kriteria yang telah ada sebelumnya. Dalam validitas kriteria, kesahihan alat ukur dilihat dari sejauhmana hasil pengukuran tersebut sama dengan hasil pengukuran alat lain yang dijadikan kriteria. Biasanya, dalam pengukuran psikologis, yang dijadikan kriteria, adalab hasil Pengukuran lain yang telah dianggap sebagai alat ukur yang baik misalnya tes Stanford Binnet atau tes Weschler.Validitas kriteria dibedakan menjadi dua macam yaitu berdasarkan kapan kriteria itu dapat dimanfaatkan. Jika dimanfaatkan dalam waktu dekat maka disebut validitas konkurent (concurrent validity) dan jika dimanfaatkan diwaktu yang akan datang disebut validitas prediktif (predictive validity).Untuk memperoleh validitas kriteria, diperlukan pengujian dengan menggunakan korelasi. Validitas kriteria ditunjukkan dengan angka korelasi antara skor pada alat yang dipergunakan dengan skor yang dihasilkan dari alat yang dijadikan kriteria. Tetapi dalam ujian masuk perguruan tinggi misalnya, koefisien validitas ditunjukkan dengan skor pada saat ujian masuk dengan skor yang diperoleh pada saat seseorang telah belajar selama beberapa waktu tertentu.Menurut Sumadi Suryabrata, (2004: 46) dalam menafsirkan koefisien validitas yang didapat dari mengkorelasikan skor alat ukur dengan kriterianya sebaiknya dilakukan melalui koefisien determinasi yaitu koefisien korelasi kuadrat. Jadi jika diperoleh koefisien korelasi sebesar 0,5, maka koefisien determinasinya adalah sebesar 0,25. semakin tinggi angka koefisien determinasi, maka semakin tinggi pula kecermatan prediksinya. 

Page 10: Analisis Butir Soal

http://evaluasipendidikan.blogspot.com/2008/03/evaluasi-program-sebuah-pengantar.html

Evaluasi Program: Sebuah Pengantar

a. Pengertian evaluasi

Menurut Suharsimi Arikunto (2004 : 1) evaluasi adalah kegiatan untuk mengumpulkan informasi tentang bekerjanya sesuatu, yang selanjutnya informasi tersebut digunakan untuk menentukan alternatif yang tepat dalam mengambil keputusan. Fungsi utama evaluasi dalam hal ini adalah menyediakan informasi-informasi yang berguna bagi pihak decision maker untuk menentukan kebijakan yang akan diambil berdasarkan evaluasi yang telah dilakukan.Menurut Worthen dan Sanders (1979 : 1) evaluasi adalah mencari sesuatu yang berharga (worth). Sesuatu yang berharga tersebut dapat berupa informasi tentang suatu program, produksi serta alternatif prosedur tertentu. Karenanya evaluasi bukan merupakan hal baru dalam kehidupan manusia sebab hal tersebut senantiasa mengiringi kehidupan seseorang. Seorang manusia yang telah mengerjakan suatu hal, pasti akan menilai apakah yang dilakukannya tersebut telah sesuai dengan keinginannya semula.

Menurut stufflebeam dalam worthen dan sanders (1979 : 129) evaluasi adalah : process of delineating, obtaining and providing useful information for judging decision alternatives. Dalam evaluasi ada beberapa unsur yang terdapat dalam evaluasi yaitu : adanya sebuah proses (process) perolehan (obtaining), penggambaran (delineating), penyediaan (providing) informasi yang berguna (useful information) dan alternatif keputusan (decision alternatives).Dari pengertian-pengertian tentang evaluasi yang telah dikemukakan beberapa orang diatas, kita dapat menarik benang merah tentang evaluasi yakni evaluasi merupakan sebuah proses yang dilakukan oleh seseorang untuk melihat sejauh mana keberhasilan sebuah program. Keberhasilan program itu sendiri dapat dilihat dari dampak atau hasil yang dicapai oleh program tersebut.Karenanya, dalam keberhasilan ada dua konsep yang terdapat didalamnya yaitu efektifitas dan efisiensi. Efektifitas merupakan perbandingan antara output dan inoutnya sedangkan efisiensi adalah taraf pendayagunaan input untuk menghasilkan output lewat suatu proses (Sudharsono 1994 : 2)

Dalam evaluasi terdapat perbedaan yang mendasar dengan penelitian meskipun secara prinsip, antara kedua kegiatan ini memiliki metode yang sama. Perbedaan tersebut terletak pada tujuan pelaksanaannya. Jika penelitian bertujuan untuk membuktikan sesuatu (prove) maka evaluasi bertujuan untuk mengembangkan (improve).

Terkadang, penelitian dan evaluasi juga digabung menjadi satu frase, penelitian evaluasi. Sebagaimana disampaikan oleh Sudharsono (1994 : 3) penelitian evaluasi mengandung makna pengumpulan informasi tentang hasil yang telah

Page 11: Analisis Butir Soal

dicapai oleh sebuah program yang dilaksanakan secara sistematik dengan menggunakan metodologi ilmiah sehingga darinya dapat dihasilkan data yang akurat dan obyektif.

b. Tujuan evaluasi program

Setiap kegiatan yang dilaksanakan mempunyai tujuan tertentu. demikian juga dengan evaluasi. Menurut Suharsimi Arikunto (2004 : 13) ada dua tujuan evaluasi yaitu tujuan umum dan tujuan khusus. Tujuan umum diarahkan kepada program secara keseluruhan sedangkan tujuan khusus lebih difokuskan pada masing-masing komponen.

Implementasi program harus senantiasa di evaluasi untuk melihat sejauh mana program tersebut telah berhasil mencapai maksud pelaksanaan program yang telah ditetapkan sebelumnya. Tanpa adanya evaluasi, program-program yang berjalan tidak akan dapat dilihat efektifitasnya. Dengan demikian, kebijakan-kebijakan baru sehubungan dengan program itu tidak akan didukung oleh data. Karenanya, evaluasi program bertujuan untuk menyediakan data dan informasi serta rekomendasi bagi pengambil kebijakan (decision maker) untuk memutuskan apakah akan melanjutkan, memperbaiki atau menghentikan sebuah program.

c. Hakekat Evaluasi Program

Menurut John L Herman dalam Tayibnapis (1989 : 6) program adalah segala sesuatu yang anda lakukan dengan harapan akan mendatangkan hasil atau manfaat. Dari pengertian ini dapat ditarik benang merah bahwa semua perbuatan manusia yang darinya diharapkan akan memperoleh hasil dan manfaat dapat disebut program.

Menurut Suharsimi Arikunto (2004 : 2) program dapat dipahami dalam dua pengertian yaitu secara umum dan khusus. Secara umum, program dapat diartikan dengan rencana atau rancangan kegiatan yang akan dilakukan oleh seseorang di kemudian hari. Sedangkan pengertian khusus dari program biasanya jika dikaitkan dengan evaluasi yang bermakna suatu unit atau kesatuan kegiatan yang merupakan ralisasi atau implementasi dari suatu kebijakan, berlangsung dalam proses berkesinambungan dan terjadi dalam satu organisasi yang melibatkan sekelompok orang.Menilik pengertian secara khusus ini, maka sebuah program adalah rangkaian kegiatan yang dilaksanakan secara berkesinambungan secara waktu pelaksanaannya biasanya panjang. Selain itu, sebuah program juga tidak hanya terdiri dari satu kegiatan melainkan rangkaian kegiatan yang membentuk satu sistem yang saling terkait satu dengan lainnya dengan melibatkan lebih dari satu orang untuk melaksanakannya.

Menurut Isaac dan Michael (1984 : 6) sebuah program harus diakhiri dengan

Page 12: Analisis Butir Soal

evaluasi. Hal ini dikarenakan kita akan melihat apakah program tersebut berhasil menjalankan fungsi sebagaimana yang telah ditetapkan sebelumnya. Menurut mereka, ada tiga tahap rangkaian evaluasi program yaitu : (1) menyatakan pertanyaan serta menspesifikasikan informasi yang hendak diperoleh, (2) mencari data yang relevan dengan penelitian dan (3) menyediakan informasi yang dibutuhkan pihak pengambil keputusan untuk melanjutkan, memperbaiki atau menghentikan program tersebut.

Berdasarkan pengertian diatas, maka evaluasi program sebagaimana dimaknai oleh Kirkpatrick dapat dimaknai sebagai sebuah proses untuk mengetahui apakah sebuah program dapat direalisasikan atau tidak dengan cara mengetahui efektifitas masing-masing komponennya melalui rangkain informasi yang diperoleh evaluator (Kirkpatrick 1996 : 3). Tetapi, pengambil keputusan itu sendiri bukanlah evaluator melainkan pihak lain yang lebih berwenang. Evaluator hanya menyediakan informasi-informasi yang dibutuhkan oleh pengambil kebijakan (decision maker)

d. Model-model evaluasi

Ada banyak model yang bisa digunakan dalam melakukan evaluasi program khususnya program pendidikan. Meskipun terdapat beberapa perbedaan antara model-model tersebut, tetapi secara umum model-model tersebut memiliki persamaan yaitu mengumpulkan data atau informasi obyek yang dievaluasi sebagai bahan pertimbangan bagi pengambil kebijakan. (Suharsimi Arikunto dan Cecep Safruddin Abdul Jabbar : 2004). Menurut Stephen Isaac dan Willian B. Michael ( 1984 : 7) model-model evaluasi dapat dikelompokan menjadi enam yaitu :

1. Goal Oriented Evaluation

Dalam model ini, seorang evaluator secara terus menerus melakukan pantauan terhadap tujuan yang telah ditetapkan. Penilaian yang terus-menerus ini menilai kemajuan-kemajuan yang dicapai peserta program serta efektifitas temuan-temuan yang dicapai oleh sebuah program. Salah satu model yang bisa mewakili model ini adalah discrepancy model yang dikembangkan oleh Provus. Model ini melihat lebih jauh tentang adanya kesenjangan (Discrepancy) yang ada dalam setiap komponen yakni apa yang seharusnya dan apa yang secara riil telah dicapai.

2. Decision Oriented Evaluation

Dalam model ini, evaluasi harus dapat memberikan landasan berupa informasi-informasi yang akurat dan obyektif bagi pengambil kebijakan untuk memutuskan sesuatu yang berhubungan dengan program. Evaluasi CIPP yang dikembangkan oleh stufflebeam merupakan salah satu contoh model evaluasi ini. Model CIPP merupakan salah satu model yang paling sering dipakai oleh evaluator. Model ini

Page 13: Analisis Butir Soal

terdiri dari 4 komponen evaluasi sesuai dengan nama model itu sendiri yang merupakan singkatan dari Context, Input, Process dan Product.Evaluasi konteks (context evaluation) merupakan dasar dari evaluasi yang bertujuan menyediakan alasan-alasan (rationale) dalam penentuan tujuan (Baline R. Worthern & James R Sanders : 1979) Karenanya upaya yang dilakukan evaluator dalam evaluasi konteks ini adalah memberikan gambaran dan rincian terhadap lingkungan, kebutuhan serta tujuan (goal).Evaluasi input (input evaluation) merupakan evaluasi yang bertujuan menyediakan informasi untuk menentukan bagaimana menggunakan sumberdaya yang tersedia dalam mencapai tujuan program.  Evaluasi proses (process evaluation) diarahkan pada sejauh mana kegiatan yang direncanakan tersebut sudah dilaksanakan. Ketika sebuah program telah disetujui dan dimulai, maka dibutuhkanlah evaluasi proses dalam menyediakan umpan balik (feedback) bagi orang yang bertanggungjawab dalam melaksanakan program tersebutEvaluasi Produk (product evaluation) merupakan bagian terakhir dari model CIPP. Evaluasi ini bertujuan mengukur dan menginterpretasikan capaian-capaian program. Evaluasi produk menunjukkan perubahan-perubahan yang terjadi pada input. Dalam proses ini, evaluasi produk menyediakan informasi apakah program itu akan dilanjutkan, dimodifikasi kembali atau bahkan akan dihentikan

3. Transactional Evaluation

Dalam model ini, evaluasi berusaha melukiskan proses sebuah program dan pandangan tentang nilai dari orang-orang yang terlibat dalam program tersebut.4. Evaluation ResearchSebagaimana disebutkan diatas, penelitian evaluasi memfokuskan kegiatannya pada penjelasan dampak-dampak pendidikan serta mencari solusi-solusi terkait dengan strategi instruksional.

5. Goal Free Evaluation

Model yang dikembangkan oleh Michael Scriven ini yakni Goal Free Evaluation Model justru tidak memperhatikan apa yang menjadi tujuan program sebagaimana model goal oriented evaluation. Yang harus diperhatikan justru adalah bagaimana proses pelaksanaan program, dengan jalan mengidentifikasi kejadian-kejadian yang terjadi selama pelaksanaannya, baik hal-hal yang positif maupun hal-hal yang negatif.

6. Adversary Evaluation

Model ini didasarkan pada prosedur yang digunakan oleh lembaga hukum. Dalam prakteknya, model adversary terdiri atas empat tahapan yaitu :1. Mengungkapkan rentangan isu yang luas dengan cara melakukan survey berbagai kelompok yang terlibat dalam satu program untuk menentukan

Page 14: Analisis Butir Soal

kepercayaan itu sebagai isu yang relevan.2. Mengurangi jumlah isu yang dapat diukur.3. Membentuk dua tim evaluasi yang berlawanan dan memberikan kepada mereka kesempatan untuk berargumen.4. Melakukan sebuah dengar pendapat yang formal. Tim evaluasi ini kemudian mengemukakan argument-argumen dan bukti sebelum mengambil keputusan

http://evaluasipendidikan.blogspot.com/2008/03/abstrak-tesis.html

Abstrak Tesis: Karakteristi Butir Soal UN Bahasa Indonesia SMA Prodi IPA TP 2005/2006 di Prop SULUT DJUNAIDI LABABA: Karakteristik Butir Soal Ujian Nasional Bahasa Indonesia SMA Program Studi IPA Tahun Pelajaran 2005/2006 di Propinsi Sulawesi Utara. Tesis. Yogyakarta: Program Pascasarjana, Universitas Negeri Yogyakarta, 2007.

Penelitian ini bertujuan untuk mengungkapkan karakteristik butir soal Ujian Nasional Bahasa Indonesia SMA Program Studi IPA tahun pelajaran 2005/2006 serta untuk membuat pemetaan berkaitan dengan kualitas pendidikan antara kabupaten/kota di Propinsi Sulawesi Utara.

Objek penelitian ini adalah Paket Tes 01 dan 03 Ujian Nasional Bahasa Indonesia SMA program studi IPA tahun pelajaran 2005/2006. Sumber data utama adalah 1.234 lembar jawaban siswa pada Paket 01 dan 2.842 lembar jawaban Paket 03. Data dianalisis dengan menggunakan pendekatan kualitatif dan kuantitatif. Pendekatan kualitatif dilakukan dengan menganalisis aspek materi, konstruksi dan bahasa. Pendekatan kuantitatif dilakukan dengan Teori Tes Klasik dan Teori Respon Butir 1 parameter (Rasch Model).

Hasil analisis kualitatif menunjukkan bahwa setiap butir yang terdapat pada Paket Tes 01 dan 03 berkualitas baik. Pada Paket 01 lima butir soal dan pada Paket 03 satu butir soal tidak memenuhi kriteria pada aspek konstruksi. Hasil analisis dengan Teori Tes Klasik menunjukkan bahwa kedua Paket Tes terkategori tidak baik. Sebanyak 20 butir (40%) pada Paket 01 dan 17 butir (34%) pada Paket 03 masuk kategori baik dari sisi tingkat kesukaran. Jumlah butir dengan daya beda yang baik untuk Paket 01 dan 03 berturut-turut sebanyak 16 dan 17 butir (32% dan 34%). Keefektifan distraktor untuk Paket 01 dan 03 berfungsi pada sebanyak 28 dan 35 butir (56% dan 70%). Hasil analisis berdasarkan teori respon butir menunjukkan sebanyak 40 butir (80%) Paket 01 dan 37 butir (74%) Paket Tes03 cocok dengan model. Sebanyak 30 butir (60%) Paket 01 dan 35 butir (70%) pada Paket 03 memiliki tingkat kesukaran sedang. Dengan demikian, berdasarkan teori respon butir 1 parameter Paket 01 masuk kategori cukup baik dan Paket 03 masuk kategori baik. Hasil pemetaan pendidikan berdasarkan Paket 01 menunjukkan bahwa daerah dengan kualitas pendidikan tertinggi adalah Kabupaten Minahasa Utara, diikuti Kabupaten Minahasa Selatan, Kabupaten Talaud, dan Kota Tomohon. Untuk Paket 03, daerah dengan kualitas pendidikan tertinggi adalah kota Manado. Selanjutnya

Page 15: Analisis Butir Soal

diikuti oleh Kabupaten Minahasa, Kabupaten Bolaangmongondow, Kabupaten Sangihe dan Kota Bitung.

ABSTRACT

DJUNAIDI LABABA: The Characteristics of National Assessment Test Items of Bahasa Indonesia for Senior High School Science Program 2005/2006 in North Sulawesi Province. Thesis. Yogyakarta: Graduate School, State University of Yogyakarta, 2007.

This research was aimed to reveal the characteristics of National Examination test items of Bahasa Indonesia for Senior High School in 2005/2006 and to map the educational quality among the regencies/cities in North Sulawesi Province.

The subject of this research was Test Packages 01 and 03 of National Examination of Bahasa Indonesia for Senior High School in 2005/2006. The data source was 1,234 answer sheets of Package 01 and 2,842 answer sheets of Package 03. The data were analyzed using the qualitative and quantitative approaches. The qualitative approach was used for analyzing the material, construction, and language aspects. The quantitative approach was used applying the Classical Test Theory and one parameter Item Response Theory (Rasch Model).

The result of the analysis shows that all of the items in Packages 01 and 03 are good. Five items in Package 01 and one item in Package 03 do not fulfill the criteria of the construction aspects. The result using the Classical Test Theory shows that both of the packages are not good. There are 20 items (40%) in Package 01 and 17 items (34%) in Package 03 categorized good viewed from the indices of item difficulty. The number of items with good discrimination power for Packages 01 and 03 is 16 and 17 items (32% and 34%). The distractor effectiveness of Packages 01 and 03 functions at 28 and 35 items (56% and 70%). The result of the analysis using the Item Response Theory shows that 40 items (80%) in Package 01 and 37 items (74%) in Package 03 fit with the model. There are 30 items (60%) in Package 01 and 35 items (70%) in Package 03 having a medium difficulty level. Thereby, according to one parameter Item Response Theory, Package 01 is categorized quite good and Package 03 is categorized good. The result of the mapping out of the educational quality according to Package 01 shows that the region with the highest quality of education is North Minahasa Regency followed by South Minahasa Regency, Talaud Regency and Tomohon City. For Package 03, the highest educational quality region is Manado City, followed by Minahasa Regency, Bolaangmongondow Regency, Sangihe Regency, and Bitung City.Untuk mendapatkan Naskah Thesis ini secara utuh silahkan hubungi saya di : [email protected] dengan memberikan alasan akan digunakan

Page 16: Analisis Butir Soal

untuk keperluan apa. Insya Allah kala digunakan untuk kebaikan, naskah tersebut akan dikirimkan lewat e-mail saudara

Topik Inti:

1. Pengertian evaluasi, evaluasi pendidikan dan kedudukannya dalam system pendidikan Islam.2. Fungsi, Tujuan dan Kegunaan Evaluasi Pendidikan Islam3. Teknik-teknik Evaluasi Pendidikan Islam (tes dan non tes)4. Bentuk tes dan teknik penulisannya5. Penyusunan instrument nontes6. Validitas tes7. Reliabilitas tes8. Teknik penskoran dan konversi nilai9. Analisis butir soal menurut teori tes klasik10. Praktik analisis soal menggunakan komputer11. Pelaporan hasil tes dan pengembangannya12. Praktik lapangan (menyusun tes dan melaksanakan ujicoba lapangan)

Referensi:Buku wajib1. Anas Sudijono. (2005). Pengantar evaluasi pendidikan. Jakarta: Raja Grafindo Persada2. Djemari Mardapi. (2004). Penyusunan Tes Hasil Belajar. Yogyakarta: Program Pascasarjana Universitas Negeri Yogyakarta3. Dali S. Naga. (1992). Pengantar Teori Sekor Pada Pengukuran Pendidikan. Jakarta: Raja Grafindo Persada4. Crocker, L. (1992). Item analysis. Dalam Alkin M.C. (Eds.), Encyclopedia of educational research. (pp. 652-657). New York: Macmillan Library reference USA.5. Allen, M. J., & Yen, W. M. (1979). Introduction to measurement theory. Monterey, California: Brooked/Cole Publishing Company.Buku Anjuran1. American Psychological Association, American Educational Research Association & National Council on Measurement in Education. (1999). Standards for educational and psychological testing. Washington: American Educational Research Association2. Gronlund, N. E., & Linn, R. L. (1990). Measurement and evaluation in teaching 6th edition. New York: Collier Macmillan Publishers.3. Linn, R. L. (Eds.), (1989). Educational measurement third edition. (pp. 13-103). New York: McMillan4. Saifuddin Azwar. (2003). Tes prestasi : fungsi dan pengembangan pengukuran prestasi belajar. Yogyakarta: Pustaka Pelajar.

Page 17: Analisis Butir Soal

5. Cangelosi, J. A. (1990). Merancang tes untuk menilai prestasi siswa. Bandung: Penerbit ITB.

Penyusunan Instrumen Nontes Teknis nontes adalah suatu alat penilaian yang biasanya dipergunakan untuk mendapatkan informasi tertentu tentang keadaan peserta tes (Inggris: testee) dengan tidak menggunakan tes. Hal ini berarti bahwa jawaban yang diberikan oleh peserta tes tidak bisa dikategorikan sebagai jawaban benar atau salah sebagaimana interpretasi jawaban tes. Dengan teknik nontes maka penilaian atau evaluasi hasil belajar peserta didik dilakukan tanpa “menguji” peserta didik melainkan dilakukan dengan cara tertentu.

Penilaian yang dilakukan dengan teknis nontes terutama bertujuan untuk memperoleh informasi yang berkaitan dengan evaluasi hasil belajar peserta didik dari segi ranah sikap hidup (affective domain) dan ranah ketrampilan (psychomotoric domain). David Krathwohl (1974), sebagaimana dikutip Anas Sudijono (2005 : 54) mengembangkan taksonomi mengenai ranah afektif ini dengan membaginya kedalam lima jenjang yaitu : (1) receiving (menerima) (2) responding (merespon) (3) valuing (menilai atau memaknai), (4) organization (mengorganisasi) dan (5) characterization by a value or value complex (karakterisasi dengan suatu nilai atau nilai yang kompleks).

Kemampuan psikomotor (psychomotoric domain) adalah kemampuan yang berhubungan dengan gerak yaitu kemampuan dalam menggunakan otot-otot seperti berjalan, lari, melompat, berenang, melukis, membongkar dan memasang peralatan dan lain sebagainya. Dalam dunia psikologi, kemampuan psikomotor dibagi kedalam lima tingkatan yaitu gerak refleks, gerakan dasar, kemampuan perseptual, kemampuan fisik, gerakan trampil dan komunikasi nondiskursip (Sax, 1980: 76).

Gerak reflek adalah gerakan yang muncul tanpa sadar. Gerakan dasar adalah gerakan yang mengarah pada ketrampilan kompleks yang khusus seperti berlari dan berjalan. Kemampuan perseptual merupakan kombinasi kemampuan kognitif dan kemampuan motor, kemampuan fisik adalah kemampuan untuk mengembangkan gerakan yang paling terampil seperti gerakan tari ataupun olahrega ekstrim tertentu. Sedangkan komunikasi nondiskursip adalah kemampuan berkomunikasi dengan menggunakan bahasa gerakan. Kemampuan terakhir ini berhubungan dengan kemampuan mengucapkan kata-kata berbahasa asing.

Dalam dunia pendidikan teknik nontes yang sering digunakan adalah pengamatan (observasi), dan terkadang, seorang guru juga menggunakan wawancara. Dalam penelitian-penelitian sosial, teknik nontes biasanya juga digunakan untuk mendapatkan informasi mengenai keadaan obyek penelitian.

Page 18: Analisis Butir Soal

Teknik nontes yang sering digunakan dalam penelitian-penelitian sosial penelitian adalah kuesioner.

Teknik pengamatan atau observasi merupakan salah satu bentuk teknik nontes yang biasa dipergunakan untuk menilai sesuatu melalui pengamatan terhadap objeknya secara langsung, seksama dan sistematis. Pengamatan memungkinkan untuk melihat dan mengamati sendiri kemudian mencatat perilaku dan kejadian yang terjadi pada keadaan sebenarnya.Menurut Moleong (2005 : 176) pengamatan dapat dibedakan menjadi dua yaitu pengamatan berperanserta dan tidak berperanserta. Dalam pengamatan yang tidak berperanserta, seseorang hanya melakukan satu fungsi yaitu mengamati tetapi pada pengamatan berperanserta seseorang disamping mengamati juga menjadi anggota dari obyek yang diamati.Pengamatan dapat pula dibagi atas pengamatan terbuka dan tertutup. Terbuka jika obyek yang diamati mengetahui bahwa mereka sedang diamati dan sebaliknya. Selain itu pengamatan juga dibagi pada latar alamiah (pengamatan tak terstruktur) dan latar buatan (pengamatan terstruktur). Pengamatan ini biasanya dapat dilakukan pada eksperimen. Dalam pengamatan berstruktur, kegiatan pengamatan itu telah diatur sebelumnya. Isi, maksud, objek yang diamati, kerangka kerja, dan lain-lain, telah ditetapkan sebelum kegiatan pengamatan dilaksanakan. Oleh karena itu, kegiatan pencatatan hanya dilakukan terhadap data-data yang sesuai dengan cakupan bidang kebutuhan seperti yang telah ditetapkan sejak semula. Lain halnya dengan pengamatan tak berstrukur, dalam melakukan pengamatannya, si pengamat tidak dibatasi oleh kerangka kerja yang telah dipersiapkan sebelumnya. Setiap data yang muncul yang dianggap relevan dengan tujuan pengamatannya langsung dicatat. Dengan demikian, data yang diperoleh lebih mencerminkan keadaan yang sesungguhnya. Perilaku siswa dalam keadaan seperti itu bersifat wajar, apa adanya dan tidak dibuat-buat.

Teknik pengamatan jika dilakukan untuk melihat apakah perbuatan siswa sudah benar atau tidak dapat dikategorikan sebagai teknik tes. Misalnya jika dalam praktek olahraga seorang guru akan melihat apakah cara melempar lembing seseorang sudah sesuai dengan teori atau tidak, maka pengamatan jenis ini terkategori sebagai teknik tes. Tetapi jika pengamatan dilakukan terhadap aspek afektif seperti cara seorang siswa bersikap terhadap guru, menjaga kebersihan, perhatian terhadap tugas-tugas sekolah dan sebagainya, maka teknik ini termasuk teknik nontes.

Wawancara atau interview merupakan salah satu alat penilaian nontes yang dipergunakan untuk mendapatkan informasi tertentu tentang keadaan responden dengan jalan tanya-jawab sepihak. Dikatakan sepihak karena pertanyaan-pertanyaan yang diajukan dalam kegiatan wawancara itu hanya berasal dari pihak pewawancara saja, sementara responden hanya bertugas sebagai penjawab. Maksud diadakan wawancara sebagaimana dikutip Moleong dari Lincoln dan Guba (1985 : 266) antara lain mengkonstruksi mengenai orang,

Page 19: Analisis Butir Soal

kejadian, organisasi, perasaan, motivasi, tuntutan, kepedulian dan lain sebagainya.

Ada banyak pembagian wawancara yang dilakukan para ahli. salah satu diantaranya adalah membagi wawancara kedalam dua bentuk yaitu wawancara bebas dan wawancara terpimpin. Yang dimaksud wawancara terpimpin adalah suatu kegiatan wawancara yang pertanyaan-pertanyaan serta kemungkinan-kemungkinan jawabannya itu telah dipersiapkan pihak pewawancara, responden tinggal memilih jawaban yang sudah dipersiapkan pewawancara. Sebaliknya dalam wawancara bebas, responden diberi kebebasan untuk menjawab pertanyaan-pertanyaan pewawancara sesuai dengan pendapatnya tanpa terikat oleh ketentuan-ketentuan yang telah dibuat pewawancaranya.

Kuesioner merupakan bentuk lain dari teknik nontes. Secara umum, ada dua jenis kuesioner yaitu kuesioner tertutup dan terbuka. Kuesioner tertutup adalah kuesioner yang telah disediakan alternatif jawabannya sehingga responden tinggal memilih yang sesuai dengan keadaan dirinya. Sedangkan kuesioner terbuka adalah kuesioner yang jawabannya belum disediakan sehingga responden bebas menuliskan apa yang dia rasakan. Satu hal yang menjadi ciri utama kuesioner adalah dalam kuesioner tidak ada jawaban benar atau salah.Salah satu contoh kuesioner tertutup adalah :

Umur anda saat ini adalah :a. 15 – 20 tahunb. 20 – 25 tahunc. 25 – 30 tahund. 35 – 35 tahun

Adapun contoh kuesioner terbuka adalah :Setiap idul fitri tiba, ribuan orang seperti digerakkan untuk beridulfitri di kampung halamannya. Uraikanlah menurut pendapat anda apa yang menjadi penyebab pulangkampungnya orang yang ada diperantauan ketika Idul Fitri tiba!

Ada beberapa alasan kenapa kuesioner sering dipergunakan orang dalam mengumpulkan informasi tertentu yaitu : (1) butir-butir kuesioner dapat diberikan kepada responden secara serentak sehingga lebih efektif, (2) butir-butir dalam kuesioner lebih menjamin keseragaman baik perumusan kata, isi maupun urutannya serta kuesioner lebih memudahkan dalam memberikan jawaban, (3) kuesioner memudahkan sumber data dalam memberikan jawaban serta kepraktisan serta relative lebih murah dibandingkan metode nontes yang lain.