PADA SECOND ORDER UNIDIMENSIONAL DATArepository.uinjkt.ac.id/dspace/bitstream/123456789... ·...

130
ESTIMASI TRUE SCORE PADA SECOND ORDER UNIDIMENSIONAL DATA: SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM Thesis Diajukan untuk Memenuhi Persyaratan Memperoleh Gelar Magister Sains Psikologi (M. Si) Oleh: Puti Febrayosi NIM: 2110070000015 FAKULTAS PSIKOLOGI UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH JAKARTA 1433 H / 2013

Transcript of PADA SECOND ORDER UNIDIMENSIONAL DATArepository.uinjkt.ac.id/dspace/bitstream/123456789... ·...

  • ESTIMASI TRUE SCORE

    PADA SECOND ORDER UNIDIMENSIONAL DATA:

    SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK

    PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM

    Thesis

    Diajukan untuk Memenuhi Persyaratan Memperoleh

    Gelar Magister Sains Psikologi (M. Si)

    Oleh:

    Puti Febrayosi

    NIM: 2110070000015

    FAKULTAS PSIKOLOGI

    UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

    JAKARTA

    1433 H / 2013

  • ii

    ESTIMASI TRUE SCORE

    PADA SECOND ORDER UNIDIMENSIONAL DATA:

    SEBUAH STUDI SIMULASI MONTE CARLO TENTANG DAMPAK

    PANJANG TES, TINGKAT KESUKARAN DAN DAYA PEMBEDA ITEM

    Tesis

    Diajukan Kepada Fakultas Psikologi Untuk Memenuhi Syarat

    Memperoleh Gelar Master Dalam Bidang Psikologi

    Oleh:

    PUTI FEBRAYOSI

    NIM : 2110070000015

    Di Bawah Bimbingan:

    Pembimbing I Pembimbing II

    Jahja Umar, Ph.D Dr. Ir. Bastari, M.A

    NIP. 19470521 198003 1001 NIP. 19660730 199001 1001

    FAKULTAS PSIKOLOGI

    UNIVERSITAS ISLAM NEGERI SYARIF HIDAYATULLAH

    JAKARTA

    1434 H/2013 M

  • iii

    LEMBAR PENGESAHAN

    Tesis yang berjudul ” Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran dan

    Daya Pembeda Item” telah diujikan dalam sidang munaqasyah Fakultas Psikologi Universitas

    Islam Negeri Syarif Hidayatullah Jakarta pada tanggal 19 Januari 2013. Tesis ini telah

    diterima sebagai salah satu syarat untuk memperoleh gelar Master dalam bidang Psikologi.

    Jakarta, 19 Januari 2013

    Sidang Munaqasyah

    Dekan/ Pembantu Dekan/

    Ketua Merangkap Anggota, Sekretaris,

    Jahja Umar, Ph.D Dra. Fadhilah Suralaga, M.Si

    NIP. 19470521 198003 1001 NIP. 19561223 198303 2001

    Anggota:

    Bahrul Hayat, Ph.D

    NIP. 19590430 198603 1016

    Dr. Ir. Bastari, M.A

    NIP. 19660730 199001 1001

  • LEMBAR PERNYATAAN

    Dengan ini saya menyatakan bahwa:

    1. Thesis ini merupakan hasil karya asli saya yang diajukan untuk memenuhi

    salah satu persyaratan memperoleh gelar sarjana strata dua (S2) di UIN

    Syarif Hidayatullah Jakarta.

    2. Semua sumber yang saya gunakan dalam penulisan ini telah saya

    cantumkan sesuai dengan ketentuan yang berlaku.

    3. Jika dikemudian hari terbukti bahwa karya ini bukan hasil karya asli saya

    atau merupakan hasil jiplakan dari karya orang lain, maka saya bersedia

    menerima sanksi yang berlaku di UIN Syarif Hidayatullah Jakarta.

    Jakarta, 14 Januari 2013

    Puti Febrayosi

    NIM: 2110070000015

  • iv

    ABSTRAK

    (A) Fakutas Psikologi Universitas Islam Negeri Syarif Hidayatullah Jakarta

    (B) Januari 2013

    (C) Puti Febrayosi

    (D) xii + 113 halaman + lampiran

    (E) Estimasi True Score Pada Second Order Unidimensional Data: Sebuah Studi

    Simulasi Monte Carlo Tentang Dampak Panjang Tes, Tingkat Kesukaran

    Dan Daya Pembeda Item

    (F) Penelitian ini bertujuan mengetahui apakah terdapat perbedaan atau bias pada

    data unidimensional second order namun dianggap sebagai unidimensional

    hanya pada tingkat pertama atau first order. Serta mengetahui sejauh mana

    pengaruh panjang tes, heterogenitas daya pembeda dan tingkat kesukaran

    apabila terdapat perbedaan atau bias terhadap kemampuan responden.

    Penelitian ini merupakan penelitian simulasi dimana yang menjadi fokus

    penelitian ialah panjang tes, heterogenitas tingkat kesukaran dan daya

    pembeda, dengan replikasi 50 kali. Selanjutnya data hasil replikasi ini

    dianalisis sebagai first order unidimensional dan second order unidimensional

    untuk kemudian dihitung selisih theta dari kedua analisis tersebut apakah bias

    atau tidak.

    Hasil penelitian ini menunjukan bahwa data dengan model unidimensional

    pada second order namun dianalisis sebagai unidimensional pada first order

    maka hasil yang diperoleh mengenai theta ( atau kemampuan responden)

    tidak memberikan gambaran yang sebenarnya, karena terdapat bias atau

    perbedaan dari nilai mean yang dihasilkan lebih besar dari nol. Bias atau

    perbedaan dari theta ( atau kemampuan responden) paling besar dihasilkan

    oleh panjang tes 20 item dengan daya pembeda 0.20 dan tingkat kesukaran

    0.10. Sedangkan bias atau perbedaan dari theta ( atau kemampuan

    responden) paling kecil dihasilkan oleh panjang tes 60 item dengan daya

    pembeda dan tingkat kesukaran 0.20. Disamping itu, berdasarkan hasil

    perhitungan didapatkan R square sebesar 0.130 hal ini berarti 13% bias

    responden dapat dijelaskan oleh bervariasinya panjang tes, heterogenitas daya

    pembeda dan tingkat kesukaran dengan indeks signifikansi sebesar 0.007 (p <

    0.05).

    (G) Daftar Bacaan: 21 (1983-2012)

  • ABSTRACT

    (A) Faculty of Psychology, State Islamic University, Syarif Hidayatullah Jakarta

    (B) January 2013

    (C) Puti Febrayosi

    (D) xii + 113 page + appendix

    (E) True Score Estimation On Second Order Unidimensional Data: A Monte

    Carlo Simulated Study On the Effects Of Test Length, Item Difficulties And

    Discriminations

    (F) This study aims to determine whether there is a difference or bias in the

    second order unidimensional data but regarded as a unidimensional only at

    the first level or first order. And to know the influence of test length,

    heterogeneity item difficulty and item discrimination if there is a difference

    or bias on the ability of respondents.

    This research is a simulation and the focus variable of this study is test

    length, heterogeneity item difficulty and item discrimination, with 50

    replication. Further, data replication were analyzed as first order

    unidimensional and as second order unidimensional, and then calculated the

    difference of the two analyzes are biased or not.

    These results indicate that the data on the second order unidimensional model

    but analyzed as a unidimensional order to first order the results about the

    ability of respondents do not give on the theta true, because there is a bias or

    a difference of mean values produced greater than zero. Bias or differences

    from theta ( or the ability of respondents) greatest is length of the test 20

    items with item discrimination 0.20 and item difficulty 0.10. In spite of, bias

    or difference from theta ( or the ability of respondents) smallest is test

    length 60 items with item discrimination and item difficulty 0.20. In addition,

    based on the results of the calculation of R square is 0130. It is means that

    13% of respondent bias can be explained by variations in length of test,

    heterogeneity item discrimination and item difficulty with index significance

    is 0.007 (p

  • v

    KATA PENGANTAR

    Assalamu’alaikum Warahmatullahi Wabarakatuh

    Alhamdulillahirabbil’alamin, ya...Rabb yang Maha Pengasih lagi Maha

    Penyayang puji syukur penulis panjatkan kehadirat-Mu karena atas rahmat dan

    karunia Allah SWT penulis mampu menyelesaikan thesis ini. Sungguh tiada

    terkira karena atas izin-Mu ya Allah maka penulis memperoleh pemahaman apa

    yang sedang dikerjakan, sedikit demi sedikit. Shalawat serta salam semoga selalu

    tercurahkan kepada Nabi Muhammad SAW beserta keluarga, sahabat dan seluruh

    umatnya.

    Dengan terselesaikannya thesis ini tidak terlepas dari arahan, bimbingan,

    dorongan, bantuan dan pastinya doa yang selalu mengiringi penulis dari semua

    pihak. Oleh karena itu, dengan rasa yang tulus, penulis mengucapkan rasa terima

    kasih kepada semua pihak yang telah membantu proses penyelesaian thesis ini,

    terutama kepada:

    1. Bapak Jahja Umar, Ph.D, Dekan Fakultas Psikologi, dosen sekaligus

    pembimbing dan penguji thesis penulis. Terima kasih banyak atas waktu,

    tenaga, arahan dan kesabaran yang telah diikhlaskan selama bapak

    membimbing penulis. Banyak hal yang bapak ajarkan dan ceritakan

    hingga akhirnya mengubah pola pikir khususnya mengenai dunia

    psikometri. Semua diawali dengan sebuah kerja keras, pengorbanan,

    kegigihan dan kemauan untuk berubah lebih baik. Terima kasih pak.

    2. Bapak Dr. Ir. Bastari, M.A ketua Jurusan Psikometri, dosen sekaligus

    pembimbing kedua. Berawal dari mata kuliah yang bapak ajarkanlah,

    penulis tertarik dengan studi simulasi walaupun awalnya tidak jelas benar

    apa yang akan diteliti. Terima kasih banyak atas waktu, pikiran dan arahan

    ditengah-tengah kesibukan yang sangat padat.

    3. Segenap Pembantu Dekan Fakultas Psikologi, Ibu Dra. Fadhilah Suralaga,

    M.Si, Ibu Zahrotun Nihayah, M.Si dan Bapak Bambang Suryadi, Ph.D,

    Bapak Bahrul Hayat, Ph. D selaku penguji, Bapak Dr. Suprananto beserta

  • vi

    seluruh dosen civitas akademika Fakultas Psikologi UIN Syarif

    Hidayatullah Jakarta, yang telah memberikan saran dan kritik dalam

    penulisan thesis ini. Terima kasih atas semangat untuk menyelesaikan

    thesis ini.

    4. Seluruh karyawan Fakultas Psikologi UIN, terima kasih atas pelayanan

    terbaiknya dan rasa kekeluargaan yang ada khususnya kepada kak Rini

    dan Susi.

    5. Kedua orang tua penulis, Ibu Indah Susi Asih dan Bapak Yodial Bahari.

    Sungguh…terima kasih banyak atas semua nya yang telah diberikan

    kepada penulis hingga saat ini dan tidak akan mampu terbalaskan. Terima

    kasih kepada Allah karena dilahirkan dari mama & papa. Doa, kasih

    sayang, motivasi, dan harapan mama & papa selalu menjadi pemicu

    penulis untuk selalu membuat mama dan papa bahagia. Kedua adik

    tersayang: Puti Mayang Raschania dan Zahlul Al-Minangi, semangat dan

    doa adik agar penulis terus berusaha menyelesaikan dan menghibur saat

    sedang down. Jadikanlah kami anak-anak yang shaleh untuk orang tua

    kami, Amin ya Rabbal’alamin.

    6. Sahabat sekaligus teman seperjuangan, Yulistin Tresnawaty. Semangat

    yang naik-turun, emosi yang ada, perjuangan memahami MPlus hingga

    melupakan liburan dan kurang tidur. Terima kasih untuk saling

    menyemangati dan mengingatkan selama penyelesaian ini. Semoga sedikit

    ilmu yang sudah kita peroleh akan membawa kemaslahatan setidaknya

    untuk diri sendiri. Amin ya Rabbal’alamin. Keluarga dan sahabat baru di

    magister sains psikologi angkatan pertama, Ika Rahayu, Kak Adhe Hartin,

    Rizka, Bu Ida, Bu Amita, Kak Nisa, Bunda Elisa, Fya, Bu Ade Pifianti, Bu

    Eha, Siskha, Pae Marjuki, Bu Husnayah, Ochil, Bu Nur, Bu Riza, Kak Ade

    Darmiah, Mas Zikri, Arni, Bang Erja. Terima kasih untuk rasa

    persaudaraan, kekeluargaan yang terbangun dan memberikan warna baru

    saat kuliah. Kangen semuanya..saat kuliah, ngerjain tugas dan makan

    bareng tiap break sholat maghrib.

  • vii

    7. Sahabat dan teman-teman kelas C, S1 Fakultas Psikologi UIN Jakarta,

    khusunya Mbak Putrie, Emma Noor Habiebah, Bunda Icha Annisa Zulfa,

    Fitri Oktaviani, Galih, Anggie Rizki, Wisnu, Lulu dan Faiqoh, terimakasih

    untuk support dan menanyakan kapan selesai thesisnya. Thanks guys.

    Tanpa mengurangi rasa hormat dan terima kasih, kepada semua pihak

    yang tidak dapat disebutkan satu persatu, telah mendoakan dan membantu

    penulis dengan tulus ikhlas. Semoga doa, dukungan dan bantuan dari semua

    pihak dibalas oleh Allah SWT dengan sebaik-baik pembalasan-Nya, Amin ya

    Rabb.

    Penulis menyadari bahwa thesis ini masih jauh dari kesempurnaan,

    terdapat banyak kekurangan dan kesalahan, sehingga penulis mengharapkan

    saran dan memberik masukan untuk lebih baik. Akhir kata, penulis ucapkan

    banyak terima kasih, untuk semua hal dan mohon maaf atas kekhilafan yang

    pernah terjadi.

    Wassalamu’alaikum Warramatullahi Wabarakatuh.

    Jakarta, Januari 2013

    Puti Febrayosi

  • viii

    DAFTAR ISI

    HALAMAN JUDUL i

    HALAMAN PERSETUJUAN ii

    LEMBAR PENGESAHAN iii

    ABSTRAK iv

    KATA PENGANTAR v

    DAFTAR ISI viii

    DAFTAR TABEL x

    DAFTAR GAMBAR xii

    BAB 1. PENDAHULUAN 1-11

    1.1. Latar Belakang Masalah 1 1.2. Perumusan dan Pembatasan Masalah 9

    1.2.1. Perumusan masalah 9 1.2.2. Pembatasan masalah 10

    1.3. Tujuan dan Manfaat Penelitian 10 1.3.1. Tujuan penelitian 10 1.3.2. Manfaat penelitian 10

    1.4. Sistematika Penulisan 11

    BAB 2. LANDASAN TEORI 12-50

    2.1. Item Response Theory (IRT) 12

    2.1.1. Konsep dasar 12

    2.1.2. Asumsi item response theory (IRT) 14

    2.1.3. Model logistik 18

    2.2. Estimasi Kemampuan Responden 25

    2.2.1. Metode maximum likelihood 27

    2.2.1.1. Estimasi joint maximum likelihood 31

    2.2.1.2. Estimasi conditional maximum likelihood 32

    2.2.1.3. Estimasi marginal maximum likelihood 32

    2.2.2. Metode bayesian 33

    2.2.2.1. Estimasi maximum a posteriori (MAP) 35

    2.2.2.2. Estimasi expected a posteriori (EAP) 36

    2.3. Analisis Faktor 36

    2.3.1. Pengertian analisis faktor 38

    2.3.2. Manfaat analisis faktor 39

    2.3.3. Dua kelas analisis faktor 39

    2.3.3.1. Analisis faktor eksploratori 40

    2.3.3.2. Analisis faktor konfirmatori 41

    2.3.3.3. Perbedaan EFA dan CFA 42

    2.3.4. Analisis faktor konfirmatori satu & dua tingkat 44

    2.3.4.1. Analisis faktor konfirmatori satu tingkat 44

    2.3.4.2. Analisis faktor konfirmatori dua tingkat 45

  • ix

    2.4. IRT dan CFA 46

    2.5. Simulasi Monte Carlo 48

    2.6. Kerangka Berfikir 49

    2.7. Hipotesis Penelitian 50

    BAB 3. METODE PENELITIAN 51-58

    3.1. Simulasi Data 51

    3.2. Desain Penelitian 51

    3.3. Jumlah Replikasi 53

    3.4. Program Komputer Untuk Simulasi 53

    3.5. Data Second Order Unidimensional 54

    3.6. Kriteria Evaluasi 58

    BAB 4. HASIL PENELITIAN 59-108

    4.1. Mengecek Data Simulasi Menggunakan EFA 62

    4.2. Mengecek Data Simulasi Menggunakan CFA 67

    4.3. Bias Responden 71

    4.4. Mean, Varian dan Standar Deviasi Dari Bias Responden 74

    4.5. Mean dan Standar Deviasi dari Mean Bias Responden 80

    Antar Replikasi

    4.6. Mean dan Standar Deviasi dari Standar Deviasi 87

    Bias Responden Antar Replikasi

    4.7. Mean Bias Antar Replikasi Dengan Daya Beda Sama 94

    4.8. Interakasi Panjang Tes, Heterogenitas Tingkat Kesukaran 96

    dan Daya Beda

    4.9. Mean Relative Bias Antar Replikasi 99

    4.10. Standar Deviasi Relative Bias Antar Replikasi 104

    BAB 5. KESIMPULAN DAN SARAN 109-111

    5.1. Kesimpulan 109

    5.2. Saran 111

    5.2.1. Saran teoritis 111

    5.2.2. Saran praktis 111

    DAFTAR PUSTAKA 112

    LAMPIRAN

  • x

    Daftar Tabel

    Tabel 3.1. Skema Simulasi Sebanyak 27 Model

    Tabel 4.1. Simulasi 27 Model

    Tabel 4.2. Hasil Exploratory Factor Analysis Pada Item-20

    Tabel 4.3. Hasil Exploratory Factor Analysis Pada Item-40

    Tabel 4.4. Hasil Exploratory Factor Analysis Pada Item-60

    Tabel 4.5. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-20

    Tabel 4.6. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-40

    Tabel 4.7. Hasil Confirmatory Factor Analysis Dalam Nilai P-Value Untuk Item-60

    Tabel 4.8. Nilai Bias Untuk 40 Responden Pada Replikasi Pertama Model 20-Aa

    Tabel 4.9. Mean, Varian Dan Standar Deviasi Dari Bias Responden

    Tabel 4.10. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

    Tabel 4.11. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

    Tabel 4.12. Mean, Varian Dan Standar Deviasi Untuk 50 Replikasi Model 20-Aa

    Tabel 4.13. Mean Dari Mean Bias Responden Antar Replikasi

    Tabel 4.14 Mean Tinggi, Mean Sedang Dan Mean Rendah Dari Mean Antar Replikasi

    Tabel 4.15. Standar Deviasi Dari Mean Bias Responden Antar Replikasi

    Tabel 4.16. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Mean Antar Replikasi

    Tabel 4.17. Mean Dari Standar Deviasi Bias Responden Antar Replikasi

    Tabel 4.18. Mean Tinggi, Sedang Dan Rendah Dari Standar Deviasi Antar Replikasi

    Tabel 4.19. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi

  • xi

    Tabel 4.20. Standar Deviasi Tinggi, Sedang Dan Rendah Dari Standar Deviasi Bias Responden

    Antar Replikasi

    Tabel 4.21. Mean Dari Mean Bias Responden Antar Replikasi Apabila Daya Beda Sama

    Tabel 4.22. Interaksi Daya Beda, Tingkat Kesukaran Dan Panjang Tes

    Tabel 4.23. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.025)

    Tabel 4.24. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.10)

    Tabel 4.25. Interaksi Panjang Tes, Tingkat Kesukaran Dengan Daya Pembeda Disamakan (0.20)

    Tabel 4.26. Mean Dari Mean Relative Bias Antar Replikasi

    Tabel 4.27. Standar Error Dari Mean Relative Bias Antar Replikasi

    Tabel 4.28. T-Value Dari Mean Relative Bias Antar Replikasi

    Tabel 4.29. Mean Dari Standar Deviasi Relative Bias Antar Replikasi

    Tabel 4.30. Standar Error Dari Standar Deviasi Relative Bias Antar Replikasi

  • xii

    DAFTAR GAMBAR

    Gambar 2.1. Kurva Karakteristik Item Model 1 Parameter Logistik

    Gambar 2.2. Kurva Karakteristik Item Model 2 Parameter Logistik

    Gambar 2.3. Kurva Karakteristik Item Model 3 Parameter Logistik

    Grafik 4.1. Mean Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

    Grafik 4.2. Standar Deviasi Dari Bias Responden Untuk Replikasi Pertama Pada 27 Model

    Grafik 4.3. Mean Dari Mean Bias Responden Antar Replikasi

    Grafik 4.4. Standar Deviasi Dari Mean Bias Responden Antar Replikasi

    Grafik 4.5. Mean Dari Standar Deviasi Bias Responden Antar Replikasi

    Grafik 4.6. Standar Deviasi Dari Standar Deviasi Bias Responden Antar Replikasi

    Grafik 4.7. Mean Dari Mean Antar Replikasi Dimana Daya Beda Disamakan

    Grafik 4.8. Mean Dari Mean Relatif Bias Antar Replikasi

    Grafik 4.9. Mean Dari Standar Deviasi Relative Bias Antar Replikasi

  • 1

    BAB 1

    PENDAHULUAN

    Dalam bab pendahuluan ini akan dibahas mengenai latar belakang

    masalah, identifikasi masalah, pembatasan dan perumusan masalah, tujuan

    penelitian, serta manfaat penelitian.

    1.1. Latar Belakang Masalah

    Saat ini, tes psikologi bukanlah sesuatu hal yang baru atau hal yang asing

    di masyarakat, apalagi bagi mereka yang pernah memiliki pengalaman menjadi

    peserta dalam tes psikologi tersebut. Tes psikologi berisikan item-item pertanyaan

    ataupun pernyataan yang diskor berdasarkan respon jawaban, sehingga hasilnya

    diharapkan dapat memberikan informasi serta membantu untuk mengenali

    individu tersebut sesuai dengan tujuan pengetesan. Secara sederhana, tes

    didefinisikan sebagai alat ukur atau prosedur (Ronald, 2010), sedangkan

    pengetesan (Kaplan, 2005) diartikan sebagai pengukuran atau teknik yang

    digunakan untuk mengukur perilaku atau membantu untuk memahami dan

    prediksi perilaku.

    Pengetesan psikologi yang dimulai sejak awal abad ke-20 atau tahun 1905

    di Perancis oleh Alferd Binet, berkembang pesat dan memberikan sumbangan

    secara efektif pada banyak bidang kehidupan. Kegiatan pengetesan psikologi

    dilakukan hampir di semua bidang kehidupan, mulai bidang pendidikan, industri,

    klinis dan ilmu sosial lainnya karena banyak keputusan, kebijakan, assessment

  • 2

    dan treatment yang dibuat berdasarkan hasil pengetesan tersebut. Sebagai contoh

    dalam bidang pendidikan, mulai dari taman kanak-kanak hingga perguruan tinggi

    memanfaatkan pengetesan psikologi untuk mengukur intelegensi (IQ), arah minat

    dan bakat, konsentrasi, kematangan emosional, interaksi sosial, kepercayaan diri

    serta dijadikan salah satu syarat penerimaan siswa. Contoh lain dalam bidang

    industri pengetesan psikologi dilakukan untuk penerimaan pegawai, mutasi atau

    promosi jabatan. Selain itu, pengetesan pada setting klinis dimanfaatkan untuk

    kepentingan diagnosis prognosis maupun terapi pada gangguan-gangguan pribadi.

    Demi memastikan tes psikologi yang digunakan dalam berbagai tujuan

    memiliki kemampuan untuk menempatkan seseorang pada tempat yang tepat

    sesuai dengan bidangnya, menjadi bahan pertimbangan untuk kebijakan yang

    akan diambil dan juga terjaga validitas dan reliabilitasnya, maka tes tersebut harus

    memiliki kualitas item yang baik dan berkualitas tinggi. Analisis item bertujuan

    untuk mengidentifikasi mana item-tem yang baik, kurang ataupun tidak baik sama

    sekali, sehingga ketika digunakan hasil tes tersebut benar-benar sudah mengukur

    apa yang hendak diukur atau diketahui. Analisis terhadap kualitas item dilakukan

    baik secara kualitatif maupun kuantitatif. Analisis item secara kualitatif ialah

    mengkaji secara teoritik item tes yang telah disusun, dengan memperhatikan tiga

    aspek, yaitu aspek materi, aspek konstruksi, dan aspek bahasa. Sedangkan analisis

    item secara kuantitatif dapat menggunakan pendekatan teori tes klasik (classical

    test theory) maupun teori respon item (item response theory).

    Teori tes klasik merupakan sebuah teori yang sudah digunakan dalam

    kurun waktu yang lama, sehingga sebagian besar orang yang terkait dengan dunia

  • 3

    pendidikan dan psikologi telah mengetahui dan memahami konsep serta

    penerapannya. Salah satu keunggulan dari tes ini terletak pada konsepnya yang

    sederhana untuk menghitung koefisien validitas dan reliabilitas tes, parameter soal

    dan kemudahan menentukan kemampuan peserta. Skor amatan dalam teori tes

    klasik (observed score = X) terdiri dari skor sebenarnya (true score = T) dan skor

    kesalahan (error score = E). Nilai true score merupakan nilai rata-rata yang

    diperoleh dari pengulangan tes menggunakan soal tes yang sama, dan menentukan

    kemampuan peserta tes dengan cara menjumlahkan skor amatan yang diperoleh

    peserta. Hal ini dapat dilakukan apabila tingkat kesukaran dan daya pembeda soal

    memiliki nilai yang sama dan uni-dimensional. Jika kondisi di atas dapat

    terpenuhi, maka skor-skor pada item-item tersebut dapat langsung dihitung

    dengan menjumlahkan semua skor pada item tersebut, disertai dengan nilai

    reliable untuk mengetahui internal consistency. Namun, kenyataannya uni-

    dimensional test sulit terpenuhi karena tingkat kesukaran dan daya pembeda yang

    bervariasi. Apabila ini digunakan maka dapat menimbulkan kerugian bagi

    pemakai hasil tes tersebut. Lebih dari itu, jika digunakan untuk mengambil sebuah

    keputusan. Maka keputusan tersebut menjadi kurang valid, hasilnya bias, makin

    besar penyimpangannya dan pemanfaatan raw score pada tes klasik menjadi

    kurang bermanfaat.

    Selanjutnya, metode dan prosedur teori tes klasik memiliki beberapa

    kekurangan (Hambleton, 1991) yakni group dependent dan test dependet artinya

    karaktersitik peserta dan tes saat interpretasi tidak dapat dipisahkan. Tingkat

    kesukaran, daya pembeda, reliabilitas dan validitas tes bergantung pada kelompok

  • 4

    yang sedang dites (sampel yang ada). Begitu juga dengan kemampuan peserta

    dapat dapat dikatakan tinggi atau rendah tergantung dengan tingkat kesukaran

    item-itemnya. Konsep reliabilitas tes dikembangkan dari konsep tes pararel yang

    dalam kenyataannya sulit untuk dipenuhi. Standart Error of Measurement (SEM)

    berlaku untuk seluruh peserta, sehingga kesalahan baku pengukuran tiap peserta

    dan butir soal tidak ada.

    Untuk mengatasi kelemahan teori tes klasik, maka berkembanglah item

    response theory (IRT). Teori ini berkembang sangat pesat, tidak hanya pada

    bidang pendidikan dan psikologi, namun digunakan juga pada rekruitmen dan

    seleksi (misal, penerimaan pegawai atau mahasiswa baru), qualification testing

    (mengkualifikasikan seseorang sesuai pada level-level tertentu), evaluasi program

    dan assessment, bidang klinis serta metode pengukuran dan penelitian. IRT

    digunakan secara luas dalam pengembangan tes, analisis dan seleksi item,

    penyetaraan tes, analisis bias item sampai dengan tes adaptif secara komputer

    (computerized adaptive test, CAT).

    Pendekatan teori tes klasik dan IRT memiliki sudut pandang yang berbeda,

    tes klasik lebih berorientasi kepada test secara keseluruhan sedangkan IRT

    memfokuskan pada item IRT (pola jawaban responden). Menurut Hambleton

    (1991) keunggulan yang dimiliki IRT antara lain: (a) karakteristik item tidak

    tergantung pada responden; (b) nilai kemampuan responden tidak tergantung pada

    tes yang dikerjakan; (c) model lebih menekankan tingkatan (level) butir soal

    daripada tingkatan tes; (d) tidak memerlukan tes paralel untuk menghitung

    koefisien realibilitas; dan (e) model menyediakan ukuran yang tepat untuk setiap

  • 5

    skor kemampuan. Dua postulat yang dimiliki IRT (Hambleton, 1991) yakni (a)

    performa dari responden dapat diprediksi atau dijelaskan oleh sekumpulan faktor

    yang disebut dengan traits, laten traits atau kemampuan (b) hubungan antara

    performa responden dalam item dengan performa responden dalam traits dapat

    dijelaskan melalui fungsi yang disebut dengan item characteristic function atau

    item characteristic curve (ICC). Fungsi ini menggambarkan bahwa semakin tinggi

    kemampuan seseorang maka semakin besar kemungkinan atau peluang seseorang

    untuk menjawab benar item tersebut.

    Data yang bisa digunakan untuk mengestimasi kemampuan responden

    dalam teori respon item dapat berupa data dikotomi (misal benar-salah atau ya-

    tidak) maupun politomi (lebih dari 2 pengkategorian, misal essay atau skala

    likert). Data dikotomi menggunakan model matematika 1, 2 atau 3 parameter

    logistik. Perbedaan nama ini dikarenakan jumlah parameter yang digunakan

    didalamnya baik tingkat kesukaran, daya beda ataupun guessing. Sedangkan data

    politomi terdapat Partial Credit Model (PCM), Graded Response Model (GRM),

    dan Generalized Partial Credit Model (GPCM).

    Dalam IRT, kemampuan responden dapat diperoleh dengan cara

    mengestimasi karakteristik parameter sesuai dengan model IRT yang sedang

    digunakan. Penggunaan model dan parameter item yang berbeda, akan

    menghasilkan estimasi kemampuan orang yang berbeda. Dalam IRT, tidak hanya

    parameter item yang akan mempengaruhi hasil estimasi kemampuan peserta tes

    (Lord & Novick dalam Ching-Fung, 2002), tetapi beberapa faktor lain seperti

    dimensi dari tes, format jawaban responden, dan jumlah sampel yang digunakan.

  • 6

    Bahkan, keberhasilan dari IRT terletak pada prosedur yang memadai yang

    digunakan dalam estimasi parameter tersebut.

    Dalam penggunaan IRT harus memenuhi dua asumsi dasar yakni

    unidimensionalitas (unidimensionality) dan independensi lokal (local

    independence). Uni-dimensi diartikan bahwa apa yang diukur melalui beberapa

    kumpulan item atau soal hanya mengukur satu traits. Terkadang asumsi ini tidak

    dapat dipenuhi dengan mudah karena ada beberapa faktor yang mempengaruhi

    misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.

    Namun, persyaratan asumsi uni-dimensi ini dapat terpenuhi jika sekumpulan tes

    mampu menyajikan secara “dominan” apa yang hendak diukur. Asumsi local-

    independence dimaknai sebagai kemampuan individu item dalam performa tes

    dianggap konstan dan respon terhadap setiap item yang dijawab adalah saling

    bebas atau independen (tidak saling bergantung). Kemampuan yang dinyatakan

    dalam model adalah satu-satunya faktor yang mempengaruhi respon peserta tes

    pada butir-butir soal.

    Sebelum menerapkan IRT, asumsi pertama yang harus dipenuhi adalah

    bahwa item yang ada harus uni-dimensi artinya mendefinisikan satu konstruk

    utama atau dimensi. Jika ada banyak item yang tidak sejajar dengan konstruk

    utama, maka dapat diartikan sebagai multi-dimensi dan lebih dari satu. Situasi

    IRT yang memenuhi asumsi uni-dimensi atau homogenitas item jarang terjadi

    baik dalam bidang dipendidikan maupun psikologi. Hal ini mungkin disebabkan

    selain dari faktor kognitif, juga dipengaruhi oleh personality responden

    dalam menjawab item pertanyaan yakni kecepatan kerja, instruksi yang

  • 7

    ada, guessing atau kecenderungan menebak. Selain dari diri responden, faktor

    tersebut juga bisa berasal dari rangsangan item soal yang sedang diberikan seperti

    panjangnya teks (pertanyaan ataupun pernyataan yang ada), tabel, gambar, peta,

    atau grafik yang tersaji pada soal. Sebagai contoh, tes matematika dengan item

    pertanyaan yang sangat panjang dan berbelit-belit akan menyebabkan responden

    (siswa) sulit untuk memahami isi pertanyaan dari soal tersebut, dan membutuhkan

    kemampuan membaca yang cukup besar. Ketika berhadapan responden dengan

    latar belakang yang berbeda, beberapa diantaranya mungkin cukup mahir untuk

    membaca dan memahami soal cerita matematika, akibatnya kemampuan membaca

    mungkin sekunder dimensi (Almond, Heath, Helwig, Rozek-Tedesco & Tindal,

    dalam Bo Zhang, 2008). Disamping itu, adanya gambar, tebel, grafik atau peta

    yang ada pada soal untuk menyelesaikan pertanyaan akan menyulitkan siswa

    dengan kemampuan imajinasi gambar yang lemah. Ketika kondisi ini terjadi,

    maka asumsi IRT uni-dimensi tidak bisa terpenuhi.

    Namun, apabila asumsi uni-dimensional dapat terpenuhi maka IRT dapat

    digunakan. Berbicara mengenai penskoringan uni-dimensional pada first order

    paling sering dilakukan. Seperti yang dilakukan oleh guru-guru di sekolah

    misalnya pada pelajaran bahasa inggris materi yang diujikan terdiri dari reading,

    listening dan writing, ataupun pelajaran matematika yang terdiri dari beberapa sub

    materi misalnya logartima, persamaan fungsi kuadrat, trigonometri dan ruang tiga

    dimensi, guru hanya memberikan satu nilai tiap pelajaran tertentu, dari beberapa

    sub materi yang diujikan didalamnya. Tidak hanya bidang pendidikan yang

    memperlakukan kondisi tersebut, namun untuk bidang psikologi hal ini

  • 8

    tampaknya juga masih banyak diterapkan. Seorang peneliti masih menskor sebuah

    skala untuk mengukur perilaku ataupun persepsi mengenai sesuatu yang terdiri

    dari beberapa dimensi diperlakukan sebagai satu nilai. Misalnya skala kepribadian

    big five yang terdiri dari lima dimensi yakni neuroticism, extraversion, openness

    to experience, agreeableness, dan conscientiousness, diperlakukan dengan

    menskor semua item pernyataan sebagai satu kesatuan. Di sisi lain, bagaimana

    hasilnya jika scoring atau penskoran diperlakukan dengan cara uni-dimensional

    second order.

    Uni-dimensional second order rasanya belum sering ditemui dilapangan.

    Sebagian besar sistem penskoran masih memperlakukan uni-dimensional first

    order terhadap tes yang didalamnya terdiri dari beberapa dimensi. Biasanya tes

    terdiri dari beberapa dimensi yang ditujukan hanya untuk mengukur satu hal

    misalnya tes matematika, bahasa inggris ataupun perilaku tertentu apakah bisa kita

    perlakukan sama dalam penskoringan walaupun sudah terpenuhi uni-dimensi item

    response theory. Uni-dimensional second order pada tes pendidikan ataupun

    psikologi diartikan bahwa sebuah tes yang terdiri dari beberapa dimensi

    didalamnya, terlebih dahulu diskor dimensi masing-masing kemudian nilai pada

    kesemua dimensi tersebut diestimasi untuk mendapatkan nilai kumulatif dari

    kesemua dimensi yang ada ataupun kemampuan responden pada tes tersebut.

    Berdasarkan uraian di muka, peneliti tertarik untuk melihat bagaimakah

    sebuah tes jika diperlakukan sebagai uni-dimensional second order yang biasanya

    orang memperlakukan sebagai uni-dimensional first order. Peneliti tertarik untuk

    menemukan jawaban dari beberapa pertanyaan, seperti: (1) apakah terdapat

  • 9

    perbedaan hasil dalam mengestimasi kemampuan seseorang dengan cara uni-

    dimensional second order; (2) dalam kondisi seperti apakah uni-dimensional

    second order bisa diperlakukan sama seperti uni-dimensional first order; (3)

    apakah dengan jumlah soal tertentu (panjang tes) baru bisa memperoleh estimasi

    yang sama, tingkat kesukaran dan daya beda item yang tidak terlalu bervariasi

    atau dengan minimum jumlah sampel tertentu, tingkat kesukaran dan daya beda

    tertentu baru bisa diperlakukan sebagai uni-dimensional first order pada situasi tes

    yang terdiri dari beberapa dimensi didalamnya; (4) lebih tepat mana antara uni-

    dimensional second order dibandingkan uni-dimensional first order dalam

    mengestimasi kemampuan responden serta dalam keadaan seperti apa yang cocok

    (panjang tes, tingkat kesukaran dan daya pembeda) untuk mendapatkannya.

    Dengan demikian, judul studi ini adalah “Estimasi true score pada second order

    unidimensional data: sebuah studi simulasi monte carlo tentang dampak

    panjang tes, tingkat kesukaran dan daya pembeda item”.

    1.2. Perumusan dan Pembatasan Masalah

    1.2.1. Perumusan masalah

    Berdasarkan latar belakang masalah di atas, pertanyaan yang timbul dalam

    penelitian ini adalah:

    a. Apakah terdapat bias atau deviasi jika data second order unidimensional

    diperlakukan sebagai unidimensional first order?

  • 10

    b. Bagaimanakah pengaruh panjang tes, heterogenitas tingkat kesukaran dan daya

    pembeda terhadap hasil true score jika data yang ada dipelakukan sebagai first

    order uni-dimensional data?

    1.2.2. Pembatasan masalah

    Ruang lingkup dalam penelitian ini dibatasi pada estimasi true score pada

    second order unidimensional data, merupakan sebuah studi simulasi monte carlo

    mengenai dampak panjang tes, tingkat kesukaran dan daya pembeda item. Fokus

    penelitian adalah kondisi seperti apakah yang lebih sesuai baik jumlah tes, tingkat

    kesukaran dan daya pembeda pada data second order unidimensional data apabila

    diperlakukan unidimensional hanya pada tingkat pertama atau first order. Data

    yang akan dianalisis sebagai first order ialah data yang dibangkitkan atau data

    simulasi dengan model yang sudah ditentukan.

    1.3. Tujuan dan Manfaat Penelitian

    1.3.1. Tujuan Penelitian

    Tujuan penelitian ini adalah untuk mengetahui estimasi true score pada

    second order unidimensional data khususnya terkait dengan dampak panjang tes,

    tingkat kesukaran dan daya pembeda item.

    1.3.2. Manfaat Penelitian

    Penelitian ini diharapkan memberikan manfaat, baik secara teoritis

    maupun praktis. Secara teoritis, penelitian ini diharapkan dapat menambah

    khasanah ilmu pengetahuan psikologi, khususnya psikometri. Sedangkan secara

    praktis, hasil penelitian ini dapat memberikan gambaran bagi pengguna IRT yang

  • 11

    sering memperlakukan second order unidimensional sebagai first order

    unidimensional data.

    1.4. Sistematika Penulisan

    Berikut ini adalah sistematika penulisan dari laporan penelitian yang telah

    dilakukan.

    BAB 1 : PENDAHULUAN

    Pada bab ini, peneliti menguraikan tentang latar belakang masalah,

    perumusan dan pembatasan masalah, tujuan dan manfaat penelitian,

    serta sistematika penelitian.

    BAB 2 : LANDASAN TEORI

    Pada bab ini, peneliti menguraikan tentang IRT, metode estimasi

    kemampuan responden, CFA, dan simulasi Monte-Carlo, kerangka

    berfikir dan hipotesis penelitian.

    BAB 3 : METODE PENELITIAN

    Pada bab ini, peneliti menguraikan simulasi data, desain penelitian,

    jumlah replikasi, program komputer untuk data simulasi dan estimasi

    kemampuan, data second order unidimensional dan kriteria evaluasi.

    BAB 4 : HASIL PENELITIAN

    Pada bab ini, peneliti menyajikan hasil penelitian dan interpretasinya.

    BAB 5 : KESIMPULAN DAN SARAN

    Pada bab ini, peneliti menyimpulkan apa yang telah diuraikan pada

    bab-bab sebelumnya, disertai rekomendasi dalam bentuk saran yang

    relevan.

  • 12

    BAB 2

    LANDASAN TEORI

    Landasan teori yang disajikan dalam bab ini mencakup beberapa hal

    relevan dengan materi penelitian seperti: IRT, metode estimasi kemampuan, CFA

    dan simulasi Monte-Carlo.

    2.1. Item Response Theory (IRT)

    2.1.1. Konsep dasar

    Item response theory merupakan teori modern yang menghubungkan

    karakteristik item dengan karakteristik peserta yang bertujuan untuk mengevaluasi

    kualitas item serta mengetahui kemampuan responden. IRT hadir untuk mengatasi

    kelemahan yang ada pada classical test theory (CTT), dimana interpretasi CTT

    bergantung pada kelompok responden yang mengerjakan (group dependent) dan

    tes yang diujikan (test dependent). Group dependent diartikan sebagai hasil

    pengukuran bergantung pada kemampuan kelompok yang mengerjakan. Jika tes

    yang diujikan kepada kelompok dengan kemampuan yang tinggi maka tingkat

    kesulitan soal akan rendah,begitu juga sebaliknya. Sedangkan test dependent

    diartikan hasil pengukuran bergantung pada tingkat kesulitan tes yang diujikan.

    Apabila tes yang diujikan memiliki tingkat kesulitan tinggi, maka estimasi

    kemampuan peserta tes akan rendah, dan sebaliknya.

    Keberadaan IRT untuk mengestimasi kemampuan responden tidak

    bergantung pada sejauh mana tingkat kesulian soal, dan tingkat kesulitan soal

  • 13

    tidak bergantung pada kelompok mana yang mengerjakannya. Dalam IRT, setiap

    individu memiliki standar error nya masing-masing, berbeda dengan CTT dimana

    standar error diratakan sama untuk semua responden. Menurut Lord & Novick

    (dalam Hambleton, 1991) dalam IRT performa responden pada sebuah tes dapat

    diprediksi atau dijelaskan dengan mendefinisikan karakteristik peserta ujian, yang

    disebut sebagai sifat atau kemampuan; estimasi nilai responden pada trait ini

    disebut sebagai kemampuan (ability), dan menggunakan nilai tersebut untuk

    memprediksi atau menjelaskan item dan performa tes.

    Dalam Embreston (2000) terdapat 10 kelebihan dari penggunaan IRT

    dibandingkan CTT yakni:

    1. Kesalahan baku pengukuran atau standard error of measurement (SEM)

    memiliki nilai yang berbeda antar skor (atau pola respon) tetapi bersifat umum

    antar populasi.

    2. Tes yang lebih pendek tidak selalu memiliki reliabilitas yang lebih rendah jika

    dibandingkan dengan tes yang lebih panjang.

    3. Perbandingan hasil yang diperoleh dari beberapa paket tes dapat lebih optimal,

    ketika tingkat kesulitan tes bervariasi antar responden.

    4. Estimasi terhadap item dapat diperoleh secara objektif meskipun sampel yang

    digunakan kurang representatif.

    5. Nilai tes menjadi lebih bermakna ketika dibandingkan dengan karakteristik

    item.

    6. Properti skala interval dicapai dengan menerapkan model pengukuran yang

    lebih rasional.

  • 14

    7. Tes dengan format item campuran dapat menghasilkan nilai tes yang optimal.

    8. Nilai yang berubah dapat bermakna, jika dibandingkan dengan nilai awal

    berbeda.

    9. Analisis faktor pada data nilai mentah, menghasilkan informasi penuh

    mengenai analisis faktor.

    10. Sifat-sifat item dapat sebagai stimulus langsung yang berhubungan dengan

    sifat psikometri.

    Menurut Hambleton (1991) item response theory didasarkan pada 2

    postulat yakni (1) performa responden pada item tes dapat diprediksi melalui

    sekumpulan faktor yang disebut dengan traits, latent traits atau kemampuan, dan

    (2) hubungan antara performa responden dengan sekumpulan traits digambarkan

    oleh fungsi monotonik yang menaik atau biasa disebut dengan fungsi karakteristik

    item atau kurva karakteristik item. Fungsi ini menggambarkan bahwa responden

    yang memiliki kemampuan yang tinggi akan memperoleh peluang yang tinggi

    juga untuk menjawab item dengan benar.

    2.1.2. Asumsi item response theory (IRT)

    Model matematika dalam IRT menetapkan bahwa kemungkinan responden

    untuk menjawab item dengan benar tergantung pada tingkat kemampuan

    responden dan karakteristik item. Hal ini dapat diartikan bahwa apabila ada

    responden yang memiliki kemampuan yang tinggi maka kemungkinan atau

    probabilitas untuk menjawab item dengan benar akan lebih besar dibandingkan

    dengan responden dengan kemampuan yang lebih rendah. Dalam Hambleton dan

  • 15

    Swaminathan (1985) terdapat empat asumsi yang mendasari IRT yakni

    dimensionality of the latent space, local independence, item characteristic curve,

    dan speededness. Berikut penjelasan dari keempat asumsi tersebut:

    1. Dimensionality of the latent space

    Secara teori umum latents traits diasumsikan bahwa sekumpulan dari

    latent traits atau kemampuan responden mendasari performa responden dari

    sekumpulan item tes. Dalam model IRT diasumsikan bahwa hanya satu

    kemampuan atau trait yang dapat “dijelaskan” atau “dihitung” dari performance

    responden dalam sebuah tes, yakni dikenal dengan sebutan unidimensi.

    Unidimensi diartikan bahwa apa yang diukur melalui beberapa kumpulan item

    atau soal hanya mengukur satu trait. Namun pada kenyatannnya, asumsi ini tidak

    dapat dipenuhi dengan mudah karena ada beberapa factor yang mempengaruhi

    misalnya motivasi, kecemasan, kemampuan untuk bekerja cepat dan lainnya.

    Oleh sebab itu, persyaratan asumsi unidimensi ini dapat terpenuhi jika

    sekumpulan tes mampu menyajikan secara “dominan” apa yang hendak diukur.

    2. Local independence

    Asumsi local independence dimaknai sebagai kemampuan individu dalam

    performa tes dianggap konstan dan respon terhadap setiap item yang dijawab

    independen (tidak bergantung pada soal sebelumnya). Untuk memenuhi

    terpenuhinya asumsi ini dapat dilakukan dengan membuktikan bahwa peluang

    dari pola jawaban responden sama dengan hasil kali peluang jawaban responden

    pada setiap item. Kemampuan individu dalam kumpulan test disebut complete

    latent space, yang dinotasikan dengan , dan respon dari individu terhadap item

  • 16

    tertentu dinotasikan . Kemudian kemungkinan atau probability individu

    menjawab item tertentu benar sesuai dengan kemampuannya () dinotasikan

    , sedangkan probabilitas individu menjawab item tertentu salah

    sesuai dengan kemampuannya dinotasikan . Secara matematik,

    properti local independence dapat ditulis, seperti

    …………………………………………………..(1)

    Keterangan:

    i = 1, 2, 3, ….. n

    n = banyaknya item tes

    P (Ui ) = probabilitas responden dengan kemampuan untuk

    menjawab item ke-i secara benar

    P (U1, U2,…Un ) = probabilitas responden dengan kemampuan untuk

    menjawab item ke-satu hingga ke-n secara benar

    3. Item characteristic curve (ICC)

    Item characteristic curve (ICC) merupakan fungsi matematika yang

    menyatakan probabiliti hubungan antara kemampuan responden () yang mampu

    menjawab soal dengan benar . Dalam teori respon butir, kurva

    karakteristik item merupakan komponen yang utama sehinga komponen-

    komponen lain didalamnya bergantung kepada kurva tersebut. Bentuk kurva

    karakteristik item bergantung pada parameter yang digunakan.

    Dalam setiap item dan nilai kemampuan responden, jika seseorang memiliki

    kemampuan yang tinggi maka kemungkinan untuk menjawab item tersebut benar

    semakin besar, namun jika kemampuan responden tersebut rendah maka

  • 17

    kemungkinan untuk menjawab item dengan benarpun akan kecil. Jika P di-plotkan

    sebagai fungsi dari kemampuan, maka hasilnya akan membentuk huruf “S” seperti

    dibawah ini:

    4. Speededness

    Responden yang gagal untuk menjawab item tes asumsinya bisa

    dikarenakan kemampuan mereka yang terbatas untuk menjawab pertanyaan

    tersebut atau mereka gagal mencapai item tes tersebut dikarenakan kekurangan

    waktu untuk menyelesaikannya. Asumsi ini mungkin jarang dikemukakan, karena

    sifatnya yang implisit dari asumsi unidimensi. Ketika sebuah performa responden

    dalam sebuah tes dipengaruhi oleh kecepatan (speed) maka dalam tes tersebut

    akan mengukur dua hal yakni performa responden yang diukur dengan kecepatan

    atau memang benar bahwa tes yang dikerjakan sudah mengukur kemampuan

    responden tersebut.

  • 18

    2.1.3. Model logistik

    Model yang digunakan dalam item characteristic function (IRF) atau item

    characteristic curve (ICC) merupakan persamaan matematika yang

    menggambarkan hubungan antara kemungkinan jawaban yang benar terhadap

    kemampuan responden. Dalam penelitian awal bentuk penyelesaian ICC

    menggunakan model kurva normal, namun karena sulitnya penghitungan maka

    digunakanlah bentuk kurva logistik. Di samping itu, apabila digunakan kurva

    normal, dimana kurva ini tidak monoton naik akan menyebabkan suatu

    kemampuan lebih tinggi dari rerata, nilai probabilitas akan lebih rendah daripada

    nilai probabilitas rerata kemampuan (Walpole, et.al., dalam Heri Ratnawati 2008).

    Dua alasan tadilah yang menyebabkan digunakanya model logistik IRT saat ini.

    Data yang dapat dianalisis menggunakan IRT bisa dalam bentuk dikotomi

    ataupun politomi. Data dikotomi biasanya diperoleh dari bentuk tes atau soal

    “benar-salah”, “forced-choice”, dan alat ukur psikologi berupa personality self-

    report “true-not true”, sikap dukungan “setuju-tidak setuju”, behavioral rating

    scale “yes or no”, maka pola respon akan ada dua nilai, bisa satu dan nol ataupun

    satu dan dua. Sedangkan, data politomi biasanya diperoleh dari bentuk soal

    “essay”, “likert scale”, ataupun jawaban pendek, maka pola respon berisi lebih

    dari dua nilai. Namun, penelitian kali ini hanya memfokuskan pada pola respon

    dikotomi.

    Model matematika yang terkenal dalam IRT untuk data dikotomi, yakni

    model satu parameter logistik, model dua parameter logistik dan model tiga

  • 19

    parameter logistik. Masing-masing model memiliki persamaan bentuk umum

    (Crocker & Aligna, 1986) yakni:

    …………………………………………………..(2)

    di mana e adalah dasar dari sistem natural logaritma, x merupakan arbitrary

    symbol (bukan menunjukan skor yang teramati). Perbedaan ketiga model tersebut

    tergantung dari banyaknya parameter yang digunakan untuk menggambarkan

    karakteristik item dalam model. Perbedaan dari ketiga model akan dijelaskan di

    bawah ini:

    1. Model 1 parameter logistik (1 PL)

    Model satu parameter logistik merupakan model yang sering digunakan

    dalam IRT. Model ini disebut dengan model satu parameter karena hanya terdapat

    satu parameter item didalamnya yakni tingkat kesukaran item yang dinotasikan

    dengan huruf “b”. Jadi, kemungkinan jawaban benar responden hanya ditentukan

    oleh tingkat kesukaran item, sedangkan daya beda dianggap sama untuk semua

    item dalam sebuah tes. Dalam Hambleton, Swaminathan & Rogers (1991)

    persamaan model 1 parameter logistik sebagai berikut:

    ………………………………….……(3)

    Keterangan:

    = probabilitas dari kemampuan responden () yang dapat menjawab

    item ke-i dengan benar

    = parameter tingkat kesukaran item

    = jumlah item dalam tes

    e = nilai transedental (eksponen) sebesar 2.718

    = berbentuk kurva “huruf S” yang memiliki nilai antara 0 dan 1.

  • 20

    di bawah ini merupakan gambar kurva karakteristik model 1PL

    Gambar 2.1. Kurva karakteristik item model 1 parameter logistik

    Parameter bi untuk item adalah titik skala kemampuan dimana probabilitas

    atau kemungkinan respon yang benar sebesar 0.5. Parameter ini menunjukkan

    posisi ICC dalam kaitannya dengan skala kemampuan. Semakin besar nilai

    parameter bi, semakin besar kemampuan yang diperlukan responden untuk

    memiliki kesempatan 50% menjawab item dengan benar. Item dikatakan sulit

    apabila terletak di sebelah kanan atau lebih tinggi dari skala kemampuan;

    sedangkan item yang mudah berada di sebelah kiri atau bawah skala kemampuan.

    Ketika nilai kemampuan dari kelompok diubah, sedemikian sehingga nilai

    rata-rata menjadi 0 dan standar deviasi menjadi 1 (satu), maka nilai bi menjadi

    lebih bervariasi yang (biasanya) berada pada interval -2 sampai dengan +2. Nilai

    bi dekat-2.0 maka termasuk item yang sangat mudah, dan nilai-nilai bi dekat 2.0

    termasuk item yang sangat sulit.

  • 21

    2. Model 2 parameter logistik (2 PL)

    Pada model 2 parameter logistik, kemungkinan responden untuk

    menjawab benar ditentukan oleh dua parameter yakni tingkat kesukaran dan daya

    pembeda. Setiap item memiliki daya beda yang berbeda-beda. Dalam Hambleton,

    Swaminathan & Rogers (1991) apabila terdapat item dengan daya pembeda besar

    maka kurva yang ditampilkan akan menanjak, dibandingkan item dengan daya

    pembeda kecil maka kurva akan lebih landai. Secara teoritis, parameter daya

    pembeda terletak diantara -∞ dan +∞, namun efektif pada nilai 0 hingga 2. Model

    2PL dikembangkan oleh Lord (dalam Hambleton, 1991) berdasarkan distribusi

    normal kumulatif (normal ogive). Kemudian, Birnbaum (dalam Hambleton, 1991)

    mengusulkan model dua parameter menggunakan item kurva karakteristik dengan

    fungsi distribusi logistik:

    …………….(4)

    Keterangan:

    = probabilitas dari kemampuan responden () yang dapat menjawab

    item ke-i dengan benar

    = parameter daya pembeda

    = parameter tingkat kesukaran item

    = jumlah item dalam tes

    e = nilai transedental (eksponen) sebesar 2.718

    D = faktor penskalaan sebesar 1.7

    atau persamaan model 2 parameter dapat ditulis dengan cara yang lain, apabila

    pembilang dan penyebut dari persamaan di atas digantikan dengan ,

    sehingga , menjadi:

  • 22

    ………………………………………….(5)

    lebih sederhana menjadi -1……..………………….(6)

    Birnbaum menggantikan fungsi distribusi dua parameter yang awalnya

    fungsi ogive menjadi logistik kumulatif dalam bentuk item kurva karakteristik.

    Kurva logistik memiliki keuntungan untuk bekerja menjadi lebih nyaman dari

    pada kurva normal ogive. Model logistik lebih "mathematically tractable" dari

    pada model normal ogive karena normal ogive melibatkan integrasi fungsi

    eksplisit dari parameter item dan kemampuan. Penafsiran Pi (), bi, ai dan pada

    dasarnya sama seperti pada penafsiran dalam model normal ogive. D sifatnya

    konstan merupakan faktor skala. Halley (dalam Hambleton, 1985) perbedaan D

    antara nomal ogive dan logistik pada 2PL berbeda kurang dari 0.01 untuk semua

    nilai . Jadi apabila kita menggunakan normal ogive dan logistik tidak

    memberikan perbedaan yang berarti dan signifikan.

    Gambar 2.2. Kurva karakteristik item model 2 parameter logistik

  • 23

    Dari gambar di atas dapat dilihat bahwa kurva 2.a dan 2.b memiliki tingkat

    kesukaran yang sama sebesar -1. Sama halnya dengan model 1PL, tingkat

    kesukaran model 2PL dalam kurva karakteristik item memiliki probabilitas

    sebesar 0.5. Jika dilihat pada gambar di atas, kurva 2.a lebih curam dibandingkan

    kurva 2.b, hal ini disebabkan perbedaan daya beda item kurva 2.a lebih tinggi

    dibandingkan kurva 2.b. Kemiringan antara kurva 2.c dan 2.b hampir sama, hanya

    kurva 2.c agak miring ke kanan. Dari sini kita dapat memperoleh informasi bahwa

    kurva 2.c memiliki tingkat kesukaran yang tinggi dibandingkan kurva 2.b, walau

    daya beda kedua kurva tersebut sama. Daya beda model 2 parameter dalam kurva

    karakteristik item disebut dengan slope parameter¸sedangkan tingkat kesukaran

    disebut dengan location parameter.

    3. Model 3 parameter logistik (3 PL)

    Model tiga parameter logistik dapat diperoleh dari model dua parameter

    dengan menambahkan parameter ketiga, dinotasikan ci. Bentuk matematis dari

    kurva logistik tiga parameter ditulis

    …………(7)

    Keterangan:

    = probabilitas dari kemampuan responden () yang dapat menjawab

    item ke-i dengan benar

    = parameter daya pembeda

    = parameter tingkat kesukaran item

    = parameter tebakan atau pseudo

    = jumlah item dalam tes

    e = nilai transedental (eksponen) sebesar 2.718

    D = faktor penskalaan sebesar 1.7

  • 24

    Dalam kurvakarakteristik item, parameter ini menyediakan asimptot lebih

    rendah dari 0 (nol) dan mewakili probabilitas peserta ujian dengan kemampuan

    rendah untuk menjawab item dengan benar. Parameter dimasukkan ke dalam

    model untuk memperhitungkan kinerja yang rendah dari kemampuan responden,

    di mana menebak atau guessing merupakan faktor dalam test performa yang

    itemnya bersifat repon-pilih (misalnya pilihan ganda). Biasanya, diasumsikan

    sebagai nilai yang lebih kecil dari nilai yang akan terjadi jika peserta ujian

    menebak secara acak pada item test. Lord (dalam Hambleton, Swaminathan &

    Rogers, 1991) mencatat, bahwa fenomena ini mungkin dapat dikaitkan dengan

    kecerdikan pembuat item dalam mengembangkan pilihan (distractor atau

    pengecoh) yang menarik untuk dipilih tetapi tidak benar. Untuk alasan seperti ini,

    tidak boleh disebut "parameter menebak atau guessing".

    Gambar 2.3. Kurva karakteristik item model 3 parameter logistik

  • 25

    Dari gambar di atas terlihat kurva karakteristik item memiliki parameter

    tingkat kesukaran item (b) sama dengan 0, daya beda (a) sama dengan 1,4 dan

    guessing sama dengan 0,2. Memang agak berbeda kurva karakteristik item untuk

    model 1PL dan model 2PL, tingkat kesukaran item pada ability diperoleh dari

    . Dari gambar di atas terlihat bahwa tingkat kesukaran

    item diperoleh saat P () = 0,6.

    2.2. Estimasi Kemampuan Responden

    Langkah pertama dan paling penting pada item response theory (IRT)

    untuk menguji data yaitu mengestimasi karakteristik parameter sesuai dengan

    model IRT yang sedang digunakan. Bahkan, keberhasilan dari item response

    theory terletak pada ketersediaan prosedur yang memuaskan untuk mengestimasi

    parameter model yang digunakan.

    Dalam model respon item, probabiliti respon yang benar tergantung pada

    kemampuan responden yang dinotasikan dengan , dan karakteristik parameter

    item. Disini kemampuan responden dan parameter item adalah sesuatu hal yang

    tidak diketahui sedangkan yang diketahui hanya pola respon dari respoden

    (examinee). Hal yang ingin dilakukan dalam estimasi adalah untuk menentukan

    nilai theta () masing-masing responden (examinee) dan parameter item dari pola

    respon yang sudah ada sebelumnya. Masalah ini mirip dengan analisis regresi di

    mana untuk mendapatkan parameter koefisien di dalam model regresi harus

    diestimasi yang datanya berasal dari respon observed variable.

  • 26

    Dua perbedaan utama yang membedakan model regresi dan model item

    response (Hambleton, Swaminathan dan Rogers (1991) yakni:

    1. Model regresi biasanya linier, sementara model item response ialah non-linier.

    2. Regressor dalam analisis regresi yakni independen variabel (IV) dimana

    sesuatu yang dapat diamati. Sedangkan, dalam model respon item "variabel

    regressor" atau theta ( atau kemampuan responden) merupakan hal yang

    tidak teramati. Jika theta ( atau kemampuan responden) langsung dapat

    diamati atau diketahui maka akan mudah untuk mengestimasi parameter item

    atau “koefisien regresi”, begitu juga sebaliknya jika parameter item dapat

    diketahui nilainya, maka untuk mengestimasi theta ( atau kemampuan

    responden) juga akan mudah. Walaupun nantinya dalam penyelesaian akan

    sulit juga karena berurusan dengan model regresi yang sifatnya non-linear.

    Estimasi parameter dapat dicapai dalam beberapa cara. Apabila theta (

    atau kemampuan responden) diketahui maka untuk menemukan model yang fit

    atau sesuai dengan data maka prosedur Invarian Parameter dapat digunakan.

    Namun, disini ada parameter item dalam model yang sebelumnya tidak diketahui

    nilainya. Ketika sampel yang diperoleh, prosedur di atas tidak dapat digunakan

    karena model tidak akan sesuai dengan data yang ada. Untuk menemukan nilai-

    nilai parameter yang menghasilkan kurva yang sesuai atau “best fitting curve”,

    dilakukan dua cara, yakni:

    1. Dalam regresi linier, untuk mencari “best fitting curve” dengan menggunakan

    kriteria least square.

  • 27

    2. Dalam model IRT yang sifatnya non-linear, kriteria kuadrat terkecil (least

    square) tidak dapat digunakan karena sulit untuk menentukan properti

    estimasi kuadrat terkecil (least square). Sehingga, dalam item response theory

    untuk mengestimasi parameter menggunakan kriteria kemungkinan

    maksimum (maximum likelihood).

    Estimasi maximum likelihood membutuhkan jumlah sampel yang cukup

    besar dan penggunaan estimasi ini dapat diaplikasikan dalam berbagai model item

    response theory. Namun sebenarnya estimasi kemampuan individu dalam item

    response theory tidak hanya terbatas pada estimasi maximum likelihood yang

    dikembangkan oleh Baker (dalam Ching-Fung, 2002) ada beberapa prosedur

    estimasi diantaranya regresi logistik (Reynolds, Perkins & Brutten dalam Ching-

    Fung, 2002), minimum chi-quadrant (Zwinderman & van der Wollenberg dalam

    Ching-Fung, 2002) dan prosedur estimasi model Bayesian (Mislevy, Baker dalam

    Ching-Fung, 2002). Disini peneliti hanya memaparkan estimasi dengan

    menggunakan prosedur maximum likelihood dan bayesian.

    2.2.1. Metode maximum likelihood

    Apabila sebuah tes yang didalamnya terdapat beberapa item n (U1, U2,

    U3……Un) maka untuk setiap respon yang benar akan diberi nilai 1 dan respon

    salah diberi nilai 0. Maka dengan menggunakan asumsi local independent,

    probabilitas gabungan dari beberapa item tersebut dapat ditulis:

    P (U1, U2, U3……Un) = P(U1) P (U2) P( U3)…..P( Uj)….P( Un)

    Atau secara singkatnya bisa ditulis seperti

  • 28

    Karena sebuah item yang dapat diberi nilai 1 ataupun 0, maka dapat ditulis ke

    dalam fungsi Likelihood seperti:

    ………(8)

    Atau disederhanakan menjadi

    ………………………..(9)

    Persamaan di atas merupakan gambaran probabilitas gabungan dari pola

    respon yang ada. Ketika pola respon yang diamati , maka interpretasi

    probabilistik tidak lagi sesuai. Oleh sebab itu, persamaan untuk probabilitas

    gabungan disebut menjadi fungsi Likelihood (kemungkinan) yang dinotasikan

    dimana adalah respon item ke-j. Sehingga persamaannya

    menjadi

    …………………….….(10)

    dan Q merupakan fungsi dari (ability individu) dan parameter item, maka

    fungsi Likelihood juga merupakan fungsi dari parameter (ability individu) dan

    parameter item.

  • 29

    Apabila seorang responden mengerjakan sebuah tes yang terdiri dari 5

    item yang pola responnya =1, = 1, = 0, = 1, dan = 0, maka fungsi

    Likelihood untuk responden ini menjadi

    Fungsi Likelihood merupakan hasil perhitungan dari yang masing-masing

    dibatasi nilainya antara 0 dan 1. Sebuah skala yang baik dari fungsi Likelihood

    dapat diperoleh dengan mengubahnya menjadi logaritma karena menggunakan

    perhitungan yang sederhana. Di bawah ini merupakan gambaran umum untuk

    logaritma dari fungsi likelihood:

    ………….(11)

    Nilai maximum dari kemampuan responden (ability) dalam fungsi

    likelihood (atau log-likelihood) disebut sebagai estimasi maksimum likelihood.

    Mencari nilai maximum dari sebuah fungsi bukanlah hal yang mudah dan dapat

    diselesaikan dengan menggunakan bantuan komputer. Dikatakan bahwa disaat

    fungsi mencapai titik maksimumnya, maka kemiringan atau slope (turunan

    pertama) adalah nol. Dengan demikian, estimasi maximum likelihood dapat

    ditentukan dengan cara melakukan turunan (derivativ) pertama dari persamaan

    fungsi Likelihood atau Log-Likelihood sama dengan nol. Persamaan ini tidak

    dapat diselesaikan secara langsung, dan metode pendekatan yang digunakan ialah

    prosedur Newton-Raphson (Hambleton dan Swaminathan, 1985).

  • 30

    Fungsi Likelihood (atau log-likelihood) memiliki keterbatasan pada nilai

    yang maximum, seperti (a) ketika responden menjawab semua item dengan benar

    atau salah, yang estimasi maximum likelihood-nya dinyatakan = +∞ atau = -

    ∞, (b) serta beberapa pola respon yang aneh. Oleh karena itu, untuk estimasi

    maximum likelihood pada kemampuan examinee tidak dapat dilakukan. Salah

    satu properti dari estimasi maximum likelihood ialah asimptotik dimana

    menggunakan sampel besar berarti juga menggunakan tes yang panjang (item

    yang cukup banyak). Sebagai tes yang panjang, theta ( atau kemampuan

    responden) pada estimasi maximum likelihood akan terdistribusi secara normal

    dan tidak bias.

    Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi

    maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan

    prosedur estimasi bayesian. Estimasi bayesian akan dibahas pada sub-bab

    sesudahnya, namun ide dasarnya adalah memodifikasi fungsi likelihood dengan

    cara memasukkan informasi sebelum (prior information) sehingga akhirnya

    mendapatkan parameter kemampuan responden. Pada model IRT untuk mencari

    parameter item biasanya digunakan estimasi maximum likelihood, dan metode

    yang paling sering digunakan adalah joint maximum likelihood (JML), conditional

    maximum likelihood (CML, dan marginal maximum likelihood (MML), yang

    dijabarkan dibawah ini:

  • 31

    2.2.1.1. Estimasi joint maximum likelihood (JML)

    Prosedur JML (Lord dalam Hambleton, 1991) berlaku untuk satu,

    dua, dan tiga-parameter model. Kemampuan responden dan parameter item

    diestimasi dengan cara bersamaan. Menurut estimasi JML, apabila

    kemampuan responden tidak diketahui maka diatasi sementara dengan

    menggunakan kemampuan responden diestimasi sebagai nilai-nilai

    diketahui. Tingkat kemampuan responden sementara diestimasi sendiri

    ditingkatkan dengan menggunakan parameter item yang kemudian

    diestimasi. Estimasi JML adalah prosedur iterasi yang melibatkan estimasi

    parameter responden dan item. Pada tahap 1, parameter responden dan pada

    tahap 2 mengestimasi parameter item, gambaran yang ada sebagai berikut:

    1. Iterasi pertama yakni menetapkan nilai awal untuk item parameter

    (misalnya, nilai umum seperti nol) sehingga estimasi maximum

    likelihood dari parameter responden dapat diperoleh. Kemudian,

    parameter item diestimasi menggunakan parameter responden yang

    sebelumnya telah diestimasi di tahap pertama.

    2. Iterasi kedua, parameter responden diestimasi menggunakan estimasi

    parameter item yang ditingkatkan. Kemudian, parameter item

    diestimasi lagi, menggunakan estimasi parameter responden. Iterasi

    terus dilakukan sampai item parameter berubah sedikit antara iterasi

    yang dilakukan berurutan.

  • 32

    2.2.1.2. Estimasi conditional maximum likelihood (CML)

    Prosedur CML (Andersen dalam Hambleton, 1991) hanya berlaku

    untuk model satu-parameter. Di sini fungsi likelihood dikondisikan pada

    jumlah nilai yang benar. Menurut estimasi CML, apabila ingin

    mengestimasi namun kemampuan responden tidak diketahui, hal ini dapat

    ditangani dengan menggunakan pola respon item tanpa parameter

    kemampuan responden. Hal ini dimungkinkan dalam prosedur CML

    bahwa hanya dengan data yang ada cukup untuk mengestimasi

    kemampuan responden. Dalam model Rasch, skor total-item cukup untuk

    mengestimasi kemampuan responden. Dengan demikian, responden

    dengan total skor yang sama, terlepas dari item mana yang tidak

    dikerjakan maka akan menerima estimasi kemampuan responden yang

    sama. Namun, untuk model yang lebih kompleks, seperti 2PL dan 3PL,

    skor total tidak dapat digunakan untuk mengestimasi kemampuan

    responden. Estimasi CML hanya bisa diterapkan pada model Rasch (atau

    model 1PL). Serupa dengan estimasi JML, parameter responden dalam

    CML dianggap sebagai nilai tetap.

    2.2.1.3. Estimasi marginal maximum likelihood (MML)

    Prosedur MML (Bock & Atkin dalam Hambleton, 1991) berlaku

    untuk satu, dua, dan tiga-parameter model. Parameter kemampuan

    responden dan parameter item yang ingin diestimasi terintegrasi keluar.

    Dengan ditentukan parameter item mana yang akan diestimasi, maka

  • 33

    parameter kemampuan juga ikut diestimasi. Menurut estimasi MML,

    apabila kemampuan responden tidak diketahui maka estimasi dapat

    dilakukan dengan menggunakan probabilitas pola respon dari distribusi

    populasi. Dalam MML, data yang diamati dianggap sebagai sampel acak

    dari suatu populasi (Bock & Liebarman dalam Embreston, 2000). Namun,

    prosedur estimasi praktis tidak tersedia sampai Bock dan Aiken (dalam

    Embreston, 2000) mengembangkan sebuah harapan atau maksimalisasi

    (expected maximum) algoritma untuk mengestimasi. Algoritma EM dalam

    MML adalah prosedur iterasi, seperti JML. Untuk MML, iterasi berturut-

    turut meningkatkan frekuensi yang diharapkan untuk respon yang benar

    dan kemampuan responden.

    2.2.2. Metode bayesian

    Apabila terdapat masalah yang tidak dapat diselesaikan dengan estimasi

    maximum likelihood dalam beberapa situasi dapat diatasi dengan menggunakan

    prosedur estimasi bayesian. Ide dasarnya adalah memodifikasi fungsi likelihood

    dengan cara memasukkan informasi sebelum kita mendapatkan parameter

    kemampuan. Prosedur bayesian merupakan prosedur yang menggunakan atau

    menggabungkan pengetahuan subjektif (terdahulu) tentang parameter yang akan

    ditaksir dengan informasi yang diperoleh dari data sampel. Informasi terdahulu

    disebut disebut juga dengan informasi prior, diperoleh dari distribusi parameter

    tersebut. Informasi dari data dirangkum dalam fungsi likelihood. Penggabungan

  • 34

    dari informasi prior dan informasi dari data akan menghasilkan informasi

    posterior.

    Sebagai contoh, kita mungkin dapat mengatakan, berdasarkan beberapa

    pengalaman sebelumnya, bahwa theta () terdistribusikan secara normal dengan

    mean (μ) dan standar deviasi (). Dalam hal ini, informasi sebelumnya dapat

    dinyatakan dalam bentuk fungsi padat (densitas) dan dinotasikan sebagai f().

    Teorema Bayes menyatakan bahwa probabilitas kondisional (conditional

    probability) dari suatu peristiwa A jika peristiwa B sudah terjadi (probabilitas

    terjadinya peristiwa A jika kondisi B sudah diketahui) adalah

    ………………………………..(12)

    Di dalam pendekatan bayesian, estimasi parameter pada sebuah model statistik,

    dilakukan dengan cara menyederhankan rumusan di atas menjadi persamaan yang

    bersifat proporsionalnya yakni:

    P (A B) P (B A) P (A)………………………(13)

    dimana simbol diartikan sebagai “proporsional terhadap”, A sebagai hipotesis

    atau parameter sedangkan B merupakan data yang diperoleh. Rumusan di atas

    diperoleh karena P(B) dalam perhitungannya bersifat konstan. Di dalam rumus

    tersebut probabilitas P(AB) (posterior) adalah sama dengan likelihood dari data B

    dalam kondisi berlakunya hipotesis A (P(BA)) dikalikan (diboboti) dengan

    probabilitas hipotesis A (prior). Dengan kata lain probabilitas benar tidaknya

    hipotesis A dalam kondisi data B sudah diperoleh (P(AB)), adalah sama dengan

    probabilitas dari data dalam kondisi hipotesis A berlaku (likelihood) dikalikan

  • 35

    dengan probabilitas hipotesis A yang berdasarkan pengalaman atau pengetahuan

    yang sudah ada sebelumnya (prior). Pada konteks ini P(AB) disebut posterior.

    Sebagai kesimpulan atau ringkasnya, pobabilitas posterior adalah likelihood yang

    dikoreksi atau disesuaikan dengan probabilitas prior (pengetahuan atau teori yang

    telah dimiliki sebelumnya).

    Rumusan diatas dapat juga ditulis dalam bentuk:

    posterior likelihood * prior…………………(14)

    Ini diartikan bahwa likelihood dari data digunakan sebagai bahan untuk

    memperbaharui informasi prior sehingga menjadi sebuah informasi posterior yang

    siap dipakai. Hubungan di atas juga berlaku untuk fungsi padat (densitas), dimana

    A adalah theta () dan B adalah pola respon item yang teramati (u). Dalam

    Hambleton (1991) teorema bayes dapat ditulis seperti dibawah ini

    f ( u) f (u ) f ()……………………………….……(15)

    di mana f () adalah distribusi prior dari hipotesis atau pengetahuan. Selanjutnya,

    karena f (u | ), pada kenyataannya adalah fungsi likelihood maka persamaan di

    atas dapat ditulis sebagai:

    f ( u) L (u ) f ()………………………………..(16)

    2.2.2.1. Estimasi maximum a posteriori (MAP)

    Dalam Embreston (2000) keterbatasan prosedur maximum

    likelihood dapat diatasi dengan memasukkan informasi distribusi

    sebelumnya (prior distribution) ke dalam fungsi log-likelihood. Dengan

    digunakannya distribusi prior, maka nilai outlier yang akan memberikan

  • 36

    pengaruh tidak semestinya terhadap estimasi parameter item ataupun

    orang dapat terlindungi. Estimasi MAP merupakan metode estimasi

    bayesian yang menggunakan informasi sebelumnya (prior) mengenai nilai

    parameter yang berhubungan dengan fungsi Log-Likelihood untuk

    mendapatkan estimasi berdasarkan kemampuan responden dengan cara

    memaksimalkan distribusi posterior. Terdapat tiga konsep dasar dalam

    MAP yakni (a) prior distribution (pengetahuan atau teori yang sudah ada

    sebelumnya) hipotesisnya hampir sama dengan distribusi probabilitas,

    asumsinya bahwa responden merupakan sampel acak, dalam estimasi

    kemampuan responden prior distribution ialah distribusi normal standar,

    (b) fungsi log-likelihood dan (c) posterior distribution (likelihood yang

    dikoreksi atau disesuaikan dengan prior distribution). Distribusi posterior

    mudah untuk ditentukan karena hanya fungsi Likelihood yang dikalikan

    dengan fungsi prior distribution. Tujuan penskoran dalam MAP ialah

    untuk menemukan nilai theta () dengan cara memaksimalkan posterior

    distribution.

    2.2.2.2. Estimasi expected a posteriori (EAP)

    Estimasi dengan menggunakan expected a posteriori (EAP) agak

    berbeda dengan estimasi yang dilakukan dengan cara maximum likelihood

    (ML) dan maximum a posteriori (MAP) karena prosedurnya yang non-

    iterative. Bertentangan estimasi ML, estimasi kemampuan responden

    dengan menggunakan EAP dapat dilakukan dengan semua pola respon

  • 37

    (baik pola respon yang menjawab benar semua atau salah semua). EAP

    merupakan estimasi bayesian yang menemukan rata-rata kemudian

    dibandingkan dengan model yang berasal dari posterior distribution.

    Menurut Bock dan Misvely (dalam Embreston, 2000)

    pengestimasian ability menggunakan EAP memiliki error mean square

    yang minimum. Properti ini baru bisa digunakan apabila sudah benar.

    Hasil EAP dapat juga akan bias ketika jumlah item terbatas untuk

    diestimasi dan estimasi kemampuan responden akan mundur mendekati

    mean kecuali jumlah item yang diestimasi besar. Namun, seberapa banyak

    item yang diestimasi belum diketahui secara pasti. Beberapa keuntungan

    dari estimasi EAP dibandingkan dengan ML ialah non-iterative, mudah

    dihitung, estimator minimum mean square, dan estimasi untuk semua jenis

    pola respon item.

    2.3. Analisis Faktor

    Cikal bakal analisis faktor dimulai saat Alfred Binet (dalam Thompson,

    2004) menciptakan ukuran kinerja intelektual, yang sekarang dikenal dengan tes

    IQ. Namun, sejak awal terdapat pertanyaan apa definisi mengenai kecerdasan dan

    bagaimana cara mengukurnya. Kontroversi ini dijawab oleh Spearman (dalam

    Thompson, 2004) yang mencoba menemukan atau merumuskan struktur

    kemampuan mentral yang bersifat umum. Dari sinilah konsep mengenai analisis

    faktor mulai dicetuskan, namun untuk segi matematis analisis faktor berawal dari

    pemikiran Pearson (dalam Umar, 2012). Hingga akhirnya analisis faktor dianggap

  • 38

    sebagai metode statistika ketika Lawley dan Maxwell menerbitkan tulisan mereka

    pada tahun 1971 (Umar, 2012).

    Prosedur untuk analisis faktor pertama kali dikembangkan pada awal abad

    ke-20 oleh Spearman (dalam Thompson, 2004). Namun, karena langkah-langkah

    yang rumit dan memakan waktu yang terlibat dalam proses, analisis faktor adalah

    tidak dapat diakses oleh banyak peneliti sampai terdapat paket perangkat lunak

    statistik di dalam komputer dan user-friendly (Thompson, 2004).

    2.3.1. Pengertian analisis faktor

    Berbagai para ahli ataupun tokoh memiliki pandangan mengenai analisis

    faktor, menurut Lawley dan Maxwell (dalam Umar, 2012) analisis faktor

    merupakan cabang dari analisis multivariat yang fokusnya pada hubungan internal

    dari set berisikan variabel. Sedangkan menurut Cattel (dalam Thompson, 2004)

    keberadaan analisis faktor sudah jauh lebih logis dan termasuk metode

    korelasional. Kerlinger (dalam Thompson, 2004) memiliki pendapat mengenai

    analisis faktor sebagai salah satu metode yang paling kuat untuk mengurangi

    kompleksitas variabel hingga menjadi lebih sederhana.

    Analisis faktor menurut Carr (dalam Gorsuch, 1983) mencakup berbagai

    analisis korelasional yang dirancang untuk menguji keterkaitan antar variable.

    Sedangkan, menurut Umar (2011) analisis faktor merupakan analisis multivariat

    yang mengungkapkan struktur dari suatu matriks kovarians atau korelasi.

  • 39

    2.3.2. Manfaat analisis faktor

    Mengenai kegunaan analisis faktor, Kerlinger (dalam Thompson, 2004)

    menggambarkannya sebagai "salah satu alat yang paling kuat yang dirancang

    untuk studi area kompleks yang menjadi perhatian ilmiah perilaku", sedangkan

    dalam Thompson (2004), terdapat tiga tujuan yang ingin dilakukan dalam analisis

    faktor, yakni:

    1. Untuk menjawab pertanyaan mengenai validitas konstruk, apakah item-item

    yang telah dibuat benar-benar mengukur mengenai apa yang hendak diukur.

    2. Untuk mengembangkan atau membangun teori baru berdasarkan item-item

    yang telah dibuat sebelumnya, ada berapa dimensi atau faktor yang mendasari

    hubungan antar variabel-variabel tersebut.

    3. Analisis faktor dapat digunakan untuk menyimpulkan hubungan dalam bentuk

    kumpulan faktor skor kemudian digunakan untuk analisis subsequent

    (misalnya analisis varians, regresi, ataupun analisis diskriminan).

    2.3.3. Dua kelas analisis faktor

    Analisis faktor dibagi menjadi dua yakni analisis faktor eksploratori

    (exploratory factor analysis, EFA) dan analisis faktor konfirmatori (confirmatory

    factor analysis, CFA). Antara EFA dan CFA merupakan bagian dari general

    linear model (GLM). Konsep atau gagasan yang diusulkan oleh Spearman pada

    tahun 1904, kini dikenal dengan sebutan analisis faktor eksploratori.

    Seorang peneliti yang menggunakan EFA, maka tidak bisa untuk

    menentukan berapa banyak faktor yang mendasari hubungan antara variabel-

  • 40

    variabel yang diukur. Sedangkan, untuk CFA peneliti langsung bisa menguji fit

    atau tidak model faktor yang dibuat. Seorang peneliti yang memiliki model teori

    tertentu akan lebih berguna menggunakan analisis faktor konfirmatori

    dibandingkan eksploratori. Dalam Thompson (2004) terdapat analisis statistik

    yang mungkin untuk dilakukan di CFA namun tidak mungkin di EFA (contohnya,

    memperbolehkan varians error berkorelasi). Untuk lebih jelas perbedaan antara

    exploratory factor analysis dan confirmatory factor analysis, peneliti akan sedikit

    menjabarkannya di bawah ini:

    2.3.3.1. Analisis faktor eksploratori

    Exploratory factor analysis merupakan analisis faktor yang

    bertujuan untuk mencari banyaknya faktor yang kurang atau sama dengan

    banyaknya variabel yang ada. Analisis faktor eksploratori tidak memiliki

    model teori yang akan diuji sebelumnya, namun digunakan untuk

    membangun sebuah teori (build of theory). Tiga tahapan yang dilakukan

    dalam analisis faktor eksploratory, yakni: (1) menentukan banyaknya

    faktor, (2) menentukan item mana ikut faktor yang mana, dan (3)

    memberikan nama pada faktor yang ada.

    Menurut Umar (2011) analisis faktor ini sifatnya tidak ilmiah,

    arbitrary atau interminasi dikarenakan tidak adanya kesepakatan yang pasti

    untuk menentukan banyaknya faktor.

  • 41

    2.3.3.2. Analisis faktor konfirmatori

    Pengembangan dari konsep EFA telah menciptakan metode dasar

    untuk analisis faktor konfirmatori (cf. Joreskog dalam Thompson, 2004)

    mengharuskan peneliti untuk memiliki bentuk model yang ingin diteliti

    harus dispesifikan atau jelas sehingga nantinya dapat untuk dianalisis

    mengenai: (1) jumlah faktor pada model, (2) jumlah variabel yang

    mencerminkan setiap faktor yang ada pada model, dan (3) menetukan

    apakah faktor-faktor tersebut berkorelasi atau tidak.

    Analisis faktor konfirmatori merupakan metode yang lebih

    “scientific” karena dapat diuji kebenarannya secara empirik dengan

    menggunakan metode statistik (Umar, 2011). Selain itu, analisis faktor

    konfirmatori menawarkan metode yang lebih layak untuk mengevaluasi

    validitas konstruk. Untuk melakukan analisis faktor konfirmatori, terlebih

    dahulu peneliti membuat hipotesis mengenai model yang berasal dari teori

    yang akan diteliti. Model atau hipotesis, ditentukan dengan cara variabel

    mana yang akan dikorelasikan dengan faktor-faktor dan apakah faktor-

    faktor tersebut saling berkorelasi atau tidak. Hipotesis ataupun model yang

    akan diuji didasarkan pada landasan teoritis (hal yang akan diteliti) atau

    penelitian terdahulu.

    Dalam Thompson (2004) disebutkan bahwa jika dihadapkan

    dengan model teori, maka analisis faktor konfirmatori lebih berguna karena

    (a) teori dapat langsung diuji dan dianalisis, dan (b) untuk memperoleh teori

    yang fit maka dapat dikur dengan berbagai cara. Peneliti mampu secara

  • 42

    eksplisit menguji hipotesis mengenai struktur faktor dari data karena

    memiliki model yang telah ditentukan sebelumnya dengan menetapkan

    jumlah dan komposisi faktor. Terdapat beberapa prosedur yang biasanya

    dilakukan di EFA, seperti merotasi factor, tidak dilakukan di dalam CFA.

    Hal ini dikarenakan bahwa model yang telah dibuat sebelumnya sudah

    menentukan simple structure, dengan menentukan koefisien faktor mana

    yang dikonstrain-kan menjadi nol dan ada koefisen tertentu yang dibebaskan

    untuk diestimasi.

    Analisis faktor konfirmatori ialah komponen yang sangat penting

    dalam kelas yang lebih luas yang dikenal dengan structural equation

    modeling (SEM), atau kadang disebut dengan analisis struktur kovarians

    (covariance structure analysis). Secara khusus CFA dikenal dengan “model

    pengukuran” yang menggambarkan bagaimana variable-variabel yang

    diukur dapat mencerimkan variable latent tertentu (Thompson, 2004). Model

    pengukuran ialah bagaimana variabel laten atau konstruk hipotesis

    tergantung pada indikasi dari variabel observed atau teramati. Hal ini

    menjelaskan properti pengukuran (reliabilitas dan validitas) dari variabel

    observed. (Joreskog & Sorbom, 1996).

    2.3.3.3. Perbedaan EFA dengan CFA

    Dalam Thompson (2004), dapat dilihat bahwa terdapat perbedaan

    antara exploratory factor analysis dengan confirmatory factor analysis,

    yakni:

  • 43

    1. Dalam EFA, semua parameter yang terdapat dalam model harus

    diestimasi. Sedangkan analisis faktor konfirmatori, secara matematis

    parameter tertentu “diizinkan” untuk “di-konstrain” atau “di-fix”

    (contohnya, sebuah varians mungkin dikonstrain untuk sama positif

    nilainya; korelasi (r) mungkin dikonstrain sama -1, +1 atau diantara -1

    hingga +1, sementara pada saat yang sama “dibebaskan” parameter

    model lainnya saat mengestimasi (contohnya, pola koefisien faktor,

    varians faktor).

    2. Analisis faktor ekxploratori, seorang peneliti mungkin mengharapkan

    koefisien tertentu, tetapi harapannya tidak dapat dimasukan ke dalam

    analisis. Namun pada CFA, peneliti harus memasukan koefisien tertentu

    kedalam analisis satu atau model spesifik, dimana setiap model terdapat

    parameter yang “di-fixkan” dan “dibebaskan”.

    3. Tidak ada error varians yang berkorelasi di dalam analisis faktor

    eksploratori, sedangkan dalam CFA korelasi dari berbagai pasang error

    varians dapat diestimasi karena hal ini mungkin diperlukan oleh peneliti.

    4. Faktor yang ada dalam analisis eksploratori semua faktor harus

    berkorelasi atau semua tidak berkorelasi. Faktor pada CFA bisa

    berkorelasi atau tidak tergantung dari model yang dibuat berdasarkan

    teori yang ada, misal kedua faktor diizinkan untuk berkorelasi dan

    korelasi ini dapat diestimasi yang merupakan bagian dari model.

  • 44

    2.3.4. Analisis faktor konfirmatori satu dan dua tingkat

    2.3.4.1. Analisis faktor konfirmatori satu tingkat

    Dalam analisis faktor konfirmatori, variabel laten atau faktor yang

    tidak dapat diteliti secara langsung disimbolkan dengan bentuk lingkaran

    atau elips, sedangkan variabel observed atau variabel measured yang dapat

    diamati secara langsung berupa item-item pertanyaan ataupun pernyataan

    disimbolkan dengan bentuk persegi atau persegi panjang. First order satu

    faktor dalam analisis faktor konfirmatori digambarkan seperti di bawah ini:

    Sehingga, persamaan untuk analisis faktor konfirmatori first order satu

    faktor menjadi

    X = x + ……………………………(17)

    Keterangan

    X = variabel observed atau terukur

    = matrik x dari model umum yang berisikan muatan faktor atau

    faktor loading

    = variabel laten atau unobserved

    = variabel error

  • 45

    2.3.4.2. Analisis faktor konfirmatori dua tingkat

    Analisis faktor konfirmatori second order ialah model pengukuran

    yang terdiri dari dua tingkat. Tingkat pertama menjelaskan hubungan antara

    variabel observed atau variabel measured dengan variabel laten, sedangkan

    pada tingkat kedua menjelaskan hubungan antara variabel laten di tingkat

    pertama dengan variabel laten di tingkat ke dua. Persamaan analisis faktor

    second order model y, yakni

    Y = y ( + ) €…………………………..….(18)

    Keterangan:

    y = matriks faktor loading dari first order, dimana baris dari matrik

    merupakan banyaknya variabel observed dan kolom dari matriks

    ialah banyaknya variabel laten.

    = matriks faktor loading dari second order, dimana baris dari matrik

    merupakan banyaknya variabel laten pada first order dan kolom

    dari matriks ialah banyaknya variabel laten pada second order.

    = vector dari faktor variabel latent pada second order

    = vector dari komponen unik atau error pada second order

    € = vector dari komponen unik atau error pada first order

    = matriks kovarians dari faktor variabel latent pada second order,

    dimana baris dan kolom pada matriks merupakan banyaknya

    variabel laten pada second order

    = matriks kovarians dari komponen unik atau error pada second order

    € = diagonal matrik kovarians dari komponen unik atau error pada first

    order, dimana baris dan kolom pada matriks merupakan banyaknya

    error variabel observed pada first order

    Persamaan di bawah ini adalah bentuk dari analisis faktor model y

    dengan first order faktor dan error pengukuran € dengan Y sebagai

    variabel observednya, sehingga menjadi Y = y € + . Sekarang, variabel

    digantikan dengan set faktor dari , sehingga disebut dengan faktor second

    order, bahwa = + . Dimana adalah matrix faktor loading second

  • 46

    order dan adalah vector dari variabel unik untuk . Gabungan dari Y = y

    + € dan = + memberikan Y = y ( + ) + € dengan matrik

    kovarians ∑ = y ( + ) y + €. Sehingga path diagram untuk

    analisis faktor second order menjadi

    2.4. IRT dan CFA

    Item response theory dan confirmatory factor analysis sebenarnya tidak

    berbeda satu dengan yang lainnya. Pada IRT hanya ada satu tingkat regresi yang

    non-linier (biasanya logistik) dimana benar-salahnya jawaban (y atau u)

    merupakan dependent variable, sedangkan latent variable kontinus (trait) sebagai

    independent variable. Regresi ini memiliki dua parameter yaitu slope (daya

    pembeda) dan intercept (tingkat kesukaran). Hal yang sama juga terjadi pada CFA

    dengan variabel kategorik ordinal. Dalam hal ini ad