Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah...

24
Analisis korespondensi adalah suatu ilmu yang mempelajari hubungan anatara dua atau lebih peubah kualitatif, yaitu dengan teknik eksplorasi data secara grafik untuk table kontingensi dan data kategori multivariate. Berdasarkan kegunaannya, analisis korespondensi dan analisis komponen utama memiliki kesamaan, yaitu suatu metode yang digunakan untuk mereduksi dimensi data menjadi dimensi yang lebih kecil dan sederhana. Sedangkan letak perbedaannya adalah bahwa analisis komponen utama lebih tepat untuk data dengan skala pengukuran kontinu sedangkan analisis korespondensi lebih tepat digunakan untuk data kategori. Analisis hubungan menggambarkan secara grafik profil baris dan profil kolom dari suatu matrik data dari table kontingensi dua arah sebagai titik-titik pada ruang vector berdimensi dua. 6.5 Analisis Korespondensi Pengantar Analisis korespondensi adalah teknik eksplorasi data yang analitik dirancang untuk menganalisis tabel dua arah dan multi-cara sederhana yang berisi beberapa ukuran korespondensi antara baris dan kolom. Sebagai lawan uji hipotesis tradisional yang dirancang untuk memverifikasi hipotesis apriori tentang hubungan antara variabel, eksplorasi analisis data yang digunakan untuk mengidentifikasi hubungan sistematis antara variabel ketika tidak ada (atau kurang lengkap) harapan yang apriori sebagai sifat dari hubungan tersebut. Analisis korespondensi juga merupakan (multivariat) data yang deskriptif teknik analitik. Bahkan statistik yang paling umum digunakan untuk penyederhanaan data mungkin tidak memadai untuk deskripsi atau pemahaman dari data. Penyederhanaan data memberikan informasi yang berguna tentang data, tapi itu tidak harus mengorbankan informasi yang berharga. Analisis korespondensi sangat menyederhanakan data yang kompleks dan memberikan penjelasan rinci dari hampir setiap bit informasi dalam data, menghasilkan analisis, sederhana namun lengkap. Analisis korespondensi memiliki beberapa fitur yang membedakannya dari teknik analisis data lain. Sebuah fitur penting dari analisis korespondensi adalah perawatan

Transcript of Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah...

Page 1: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Analisis korespondensi adalah suatu ilmu yang mempelajari hubungan anatara dua atau lebih peubah kualitatif, yaitu dengan teknik eksplorasi data secara grafik untuk table kontingensi dan data kategori multivariate.Berdasarkan kegunaannya, analisis korespondensi dan analisis komponen utama memiliki kesamaan, yaitu suatu metode yang digunakan untuk mereduksi dimensi data menjadi dimensi yang lebih kecil dan sederhana. Sedangkan letak perbedaannya adalah bahwa analisis komponen utama lebih tepat untuk data dengan skala pengukuran kontinu sedangkan analisis korespondensi lebih tepat digunakan untuk data kategori.Analisis hubungan menggambarkan secara grafik profil baris dan profil kolom dari suatu matrik data dari table kontingensi dua arah sebagai titik-titik pada ruang vector berdimensi dua.

6.5 Analisis Korespondensi

Pengantar

Analisis korespondensi adalah teknik eksplorasi data yang analitik dirancang untuk menganalisis tabel dua arah dan multi-cara sederhana yang berisi beberapa ukuran korespondensi antara baris dan kolom. Sebagai lawan uji hipotesis tradisional yang dirancang untuk memverifikasi hipotesis apriori tentang hubungan antara variabel, eksplorasi analisis data yang digunakan untuk mengidentifikasi hubungan sistematis antara variabel ketika tidak ada (atau kurang lengkap) harapan yang apriori sebagai sifat dari hubungan tersebut.

Analisis korespondensi juga merupakan (multivariat) data yang deskriptif teknik analitik. Bahkan statistik yang paling umum digunakan untuk penyederhanaan data mungkin tidak memadai untuk deskripsi atau pemahaman dari data. Penyederhanaan data memberikan informasi yang berguna tentang data, tapi itu tidak harus mengorbankan informasi yang berharga. Analisis korespondensi sangat menyederhanakan data yang kompleks dan memberikan penjelasan rinci dari hampir setiap bit informasi dalam data, menghasilkan analisis, sederhana namun lengkap.

Analisis korespondensi memiliki beberapa fitur yang membedakannya dari teknik analisis data lain. Sebuah fitur penting dari analisis korespondensi adalah perawatan multivariat data melalui pertimbangan simultan dari beberapa variabel kategori. Sifat multivariat analisis korespondensi dapat mengungkapkan hubungan yang tidak akan terdeteksi dalam serangkaian perbandingan bijaksana sepasang variabel. Fitur lain yang penting adalah tampilan grafis dari baris dan kolom di biplots poin, yang dapat membantu dalam mendeteksi hubungan struktural antara kategori variabel dan objek (yaitu, kasus). Akhirnya, analisis korespondensi memiliki persyaratan data yang sangat fleksibel. Satu-satunya data yang ketat persyaratan adalah data matriks persegi panjang dengan non-negatif entri. Analisis korespondensi yang paling efektif jika kondisi berikut ini terpenuhi:

Matriks data cukup besar, sehingga inspeksi visual atau analisis statistik sederhana tidak dapat mengungkapkan struktur

Variabel adalah homogen, sehingga masuk akal untuk menghitung jarak statistik antara baris atau kolom.

Matriks data adalah apriori "amorf", yaitu., Strukturnya tidak diketahui atau kurang dipahami.

Page 2: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Sebuah keuntungan yang berbeda dari analisis korespondensi lebih dari metode lain yang menghasilkan tampilan grafis bersama adalah bahwa hal itu menghasilkan dua dual display yang baris dan kolom geometri memiliki interpretasi yang sama, analisis dan deteksi memfasilitasi hubungan. Dalam pendekatan multivariat lain untuk representasi data grafis, dualitas ini tidak hadir.

Singkatnya, analisis korespondensi (CA) dapat didefinisikan sebagai kasus khusus dari analisis komponen utama (PCA) dari baris dan kolom dari sebuah tabel, terutama berlaku untuk tabulasi silang. Namun CA dan PCA digunakan di bawah keadaan yang berbeda. Analisis komponen utama digunakan untuk tabel yang terdiri dari pengukuran kontinyu, sedangkan analisis korespondensi diterapkan untuk tabel kontingensi (yaitu. Lintas-tabulasi). Tujuan utamanya adalah untuk mengubah tabel informasi numerik menjadi tampilan grafis, di mana setiap baris dan setiap kolom digambarkan sebagai sebuah titik.

Prosedur biasa untuk menganalisis tabulasi silang adalah untuk menentukan probabilitas hubungan global antara baris dan kolom. Pentingnya asosiasi diuji dengan uji Chi-square, tetapi tes ini tidak memberikan informasi tentang asosiasi yang signifikan antara individu baris-kolom pasang matriks data. Analisis korespondensi menunjukkan bagaimana variabel-variabel yang terkait, bukan hanya bahwa ada hubungan.

Dasar Konsep dan Definisi

Ada konsep-konsep dasar tertentu dalam analisis korespondensi: yang dijelaskan di bawah.

Primitif matriks

Matriks data asli, N (I, J), atau tabel kontingensi, disebut matriks primitif atau meja primitif. Elemen-elemen dari matriks ini adalah n ij.

Profil

Sementara menafsirkan cross-tabulasi, masuk akal sedikit untuk membandingkan frekuensi dalam setiap sel. Setiap baris dan kolom masing-masing memiliki nomor yang berbeda dari responden, yang disebut basis responden. Sebagai perbandingan adalah penting untuk mengurangi baik baris atau kolom ke basis yang sama.

Pertimbangkan sebuah tabel kontingensi N (I, J) dengan I baris (i = 1, 2, I) dan kolom J (j = 1,2, ..., J) memiliki frekuensi n il. Frekuensi marjinal dinotasikan dengan n dan n i + j

Total frekuensi diberikan oleh

Page 3: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Baris profil

Profil dari setiap baris i adalah vektor dari kepadatan bersyarat:

Set lengkap dari profil baris dapat dilambangkan oleh I × J matriks R.

Matriks Profil Row

BARIS KOLOM TOTA

L

1 2 J

1.

2.

3.

.

Saya

.

........

....

........

....

........

....

.

........

....

1

1

1

1

Kolom

massa

1

Kolom Profil

Profil dari masing-masing kolom j adalah vektor dari kepadatan bersyarat . Set lengkap profil kolom dapat dinotasikan oleh (i matriks C.

Matriks Profil Kolom

BARIS KOLOM BARIS

MASSAL

1 2 J

1.

2.

........

....

Page 4: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

3.

.

Saya

.

........

....

........

....

.

........

....

 

 

Kolom

massa

1 ... 1 1 1

Rata-rata profil baris = N + j / N (J = 1, 2, .... J)

Rata-rata kolom profil = N i + / N (I = 1, 2, ..., saya.)

Misa

Konsep lain yang mendasar dalam analisis korespondensi adalah konsep massa. Massa dari baris ke-i =

Marjinal frekuensi baris ke i / Total Agung

= N + i / n

Demikian pula massa dari kolom ke-j =

Marjinal frekuensi ke j kolom total / Agung

= N j + / n

Korespondensi matriks

Matriks korespondensi P didefinisikan sebagai tabel asli N dibagi oleh besar Total n, P = (1 / n) N. Jadi, setiap sel dari matriks korespondensi diberikan oleh frekuensi sel dibagi dengan grand total.

Matriks korespondensi menunjukkan bagaimana satu unit massa adalah didistribusikan di seluruh sel. Baris dan total kolom dari matriks korespondensi adalah massa dan massa baris kolom, masing-masing.

Awan Poin N (I) dan N (J)

Awan titik N (I) adalah himpunan dari unsur poin i I, yang koordinat merupakan komponen

dari profil dan yang massanya

Page 5: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Awan titik N (J) adalah himpunan dari unsur poin j J, yang koordinat-koordinatnya adalah komponen profil dan yang massanya adalah n j + / n + +.

Jarak

Sebuah varian dari jarak Euclidean, yang disebut jarak Euclidean berbobot, digunakan untuk mengukur dan dengan demikian menggambarkan jarak antara titik profil. Di sini, bobot mengacu pada pembobotan diferensial dari dimensi ruang dan tidak bobot profil.

Jarak antara dua baris i dan i diberikan oleh

Dalam mode simetris, jarak antara dua kolom j dan j diberikan oleh

Jarak yang diperoleh disebut jarak Chi-square. Jarak Chi-square berbeda dari jarak Euclidean biasa di masing-masing persegi dibobot dengan kebalikan dari frekuensi yang sesuai untuk setiap istilah.

Pembagian setiap istilah kuadrat dengan frekuensi yang diharapkan adalah "varians - standarisasi" dan mengkompensasi untuk varians yang lebih besar dalam frekuensi tinggi dan varians yang lebih kecil pada frekuensi rendah. Jika tidak ada standardisasi seperti itu dilakukan, perbedaan antara proporsi yang lebih besar akan cenderung menjadi besar dan dengan demikian mendominasi perhitungan jarak, sedangkan perbedaan antara proporsi yang lebih kecil akan cenderung kebanjiran. Faktor bobot yang digunakan untuk menyamakan perbedaan-perbedaan ini.

Pada dasarnya, alasan untuk memilih jarak Chi-square adalah bahwa hal itu memenuhi prinsip kesetaraan distribusi, dinyatakan sebagai berikut:

Jika dua baris i dan i I N (I, J) adalah proporsional dan jika mereka digantikan oleh satu-satunya, yang merupakan jumlah, kolom-demi-kolom, maka jarak antar kolom yang tidak berubah dalam N (J).

Jika dua kolom j dan j J N (I, J) adalah proporsional dan jika mereka diganti oleh hanya satu, yang jumlah, baris-demi-baris, maka jarak antar baris tidak berubah dalam N (I).

Kelembaman

Inersia adalah istilah yang dipinjam dari "momen inersia" dalam mekanika. Sebuah objek fisik memiliki pusat gravitasi (atau centroid). Setiap partikel dari objek memiliki massa m tertentu dan d jarak tertentu dari pusat massa tersebut. Momen inersia benda adalah kuantitas 2 md menyimpulkan atas semua partikel yang membentuk objek.

Page 6: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Momen inersia =

Konsep ini memiliki analogi dalam analisis korespondensi. Ada awan poin profil dengan menambahkan massa sampai 1. Titik-titik memiliki (yaitu, profil rata-rata.) Centroid dan jarak (Chi-square jarak) antara poin profil. Setiap titik profil berkontribusi pada inersia dari seluruh awan. Inersia dari titik profil dapat dihitung dengan rumus berikut.

Untuk profil ke baris i,

Inersia =

dimana r adalah rasio ij n w / n i + dan adalah n. j / n

Inersia dari kolom ke-j profil dihitung sama.

Inersia total dari tabel kontingensi diberikan oleh:

Jumlah inersia

yang merupakan statistik Chi-kuadrat dibagi oleh n?

Pengurangan dimensi

Cara lain untuk melihat analisis korespondensi adalah mempertimbangkan itu sebagai metode untuk membusuk inersia keseluruhan dengan mengidentifikasi sejumlah kecil dimensi di mana penyimpangan dari nilai-nilai yang diharapkan dapat diwakili. Hal ini mirip dengan tujuan analisis faktor, di mana varians total terurai, sehingga sampai pada yang lebih rendah - representasi dimensi variabel yang memungkinkan seseorang untuk merekonstruksi sebagian dari matriks varians / kovarians dari variabel.

Kriteria untuk Pengurangan dimensi

Dalam analisis korespondensi, kita pada dasarnya mencari dimensi subruang rendah, yang sedekat mungkin ke set dari poin profil dalam ruang dimensi tinggi benar. . Misalkan S menunjukkan setiap ruang bagian kandidat. Untuk i: titik profil th, kita dapat menghitung jarak Chi-square antara titik profil dan S, dinotasikan dengan d i (S). Ukuran tertimbang dari jarak dari titik profil dan subruang diberikan oleh:

r i [d i (S)] 2.

Jarak dari semua profil ke S subruang diberikan oleh:

r i [d i (S)] 2.

Page 7: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Tujuan dari analisis korespondensi adalah untuk menemukan yang subruang S meminimalkan kriteria di atas.

Kriteria yang digunakan untuk reduksi dimensi menyiratkan bahwa inersia dari awan dalam subruang yang optimal adalah maksimal, tapi itu tetap akan kurang dari itu di ruang yang benar. Apa yang hilang dalam proses ini adalah pengetahuan tentang seberapa jauh dan di mana arah profil kebohongan dari subruang ini. Apa yang diperoleh adalah pandangan dari profil, yang dinyatakan tidak akan mungkin. Rasio inersia dalam ruang bagian ke keseluruhan inersia memberikan ukuran ketepatan representasi dari awan dalam ruang bagian tersebut.

Analisis Korespondensi menentukan sumbu utama inersia dan untuk setiap sumbu nilai eigen yang sesuai, yang sama dengan inersia dari awan dalam arah sumbu. Sumbu faktorial pertama adalah baris dalam arah yang inersia dari awan adalah maksimum. Sumbu faktorial kedua adalah, di antara semua baris yang tegak lurus terhadap sumbu faktorial pertama, satu di arah yang inersia dari awan adalah maksimum. Sumbu faktorial ketiga adalah, di antara semua baris yang tegak lurus terhadap sumbu faktorial kedua pertama dan kedua, baris dalam arah yang inersia dari awan adalah maksimal, dan seterusnya. Subruang yang optimal adalah subruang yang direntang oleh sumbu utama. Inersia dari profil sepanjang sumbu utama disebut inersia Utama.

Geometris, inersia utama adalah rata-rata tertimbang dari Chi-kuadrat jarak dari centroid ke proyeksi dari profil baris pada sumbu utama masing-masing. Ini adalah ukuran absolut dari dispersi dari profil baris dalam arah sumbu itu. Setiap inersia pokok dapat diuraikan menjadi komponen-komponen karena setiap profil baris (atau profil kolom). Baris, yang berkontribusi sangat ke sumbu utama, sebagian besar menentukan orientasi dan identitas dari sumbu utama yang sesuai.

Cosinus vektor deviasi profil baris 'dari centroid dan sumbu utama menggambarkan bagaimana erat setiap vektor terletak profil atau berkorelasi dengan sumbu utama. Jadi, mereka mengukur seberapa baik tampilan mendekati posisi sejati profil itu.

Nilai-nilai eigen i), sesuai dengan urutan sumbu utama adalah dalam urutan penurunan besarnya:

1> 2> 3>. . . . > L k

Baris dan Analisis Kolom

Analisis baris dari matriks terdiri dalam menempatkan profil baris dalam ruang multidimensi dan menemukan dimensi subruang rendah, yang datang paling dekat dengan poin profil. Profil baris diproyeksikan ke suatu subruang untuk interpretasi antar-profil posisi. Demikian pula, analisis profil kolom melibatkan menempatkan profil kolom dalam ruang multidimensi dan menemukan dimensi subruang rendah, yang datang paling dekat dengan poin profil.

Baris dan kolom analisis sangat erat terhubung. Jika analisis dilakukan baris, kolom analisis juga ipso facto dilakukan, dan sebaliknya. Kedua analisis tersebut setara dalam arti bahwa masing-masing memiliki inersia total yang sama, dimensi yang sama dan dekomposisi yang sama inersia ke inertias utama sepanjang sumbu utama.

Kontribusi baris dan Kolom untuk Inersia

Page 8: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Inersia total meja mengkuantifikasi berapa banyak variasi hadir dalam profil baris atau kolom dalam profil.

Setiap baris dan kolom masing-masing membuat kontribusi terhadap inersia total, masing-masing disebut inersia baris dan kolom inersia. Inersia utama baris (atau kolom) poin adalah inersia dari baris (atau kolom) poin diproyeksikan ke sumbu. Jadi, setiap baris atau kolom membuat kontribusi terhadap inersia utama. Komponen inersia baris atau kolom inersia sepanjang sumbu utama disebut inersia utama.

Kontribusi ini dapat dinyatakan dalam istilah relatif:

Kontribusi dari suatu baris (atau kolom) - sumbu, relatif terhadap inersia utama yang sesuai. Ini adalah kontribusi relatif dari baris (kolom) dengan komposisi dari - sumbu, biasanya dinotasikan dengan RKPT yang memungkinkan untuk mendiagnosis yang menunjuk memainkan peran utama dalam orientasi sumbu utama.

Kontribusi dari baris (kolom) - sumbu, relatif terhadap titik yang sesuai inersia itu. Ini disebut kontribusi dari titik ke sumbu eksentrisitas. Dinotasikan sebagai COR Hal ini memungkinkan mendiagnosis posisi setiap titik apakah itu baik atau buruk diwakili diwakili pada sumbu tertentu

Maksimum jumlah dimensi

Karena jumlah frekuensi di kolom harus sama dengan total baris, dan jumlah seluruh baris sama dengan total kolom, ada dalam arti hanya (nomor, J, dari olumns - 1) entri independen di setiap baris , dan (nomor, saya, baris - 1) entri independen dalam setiap kolom dari tabel kontingensi. Dengan demikian, jumlah maksimum nilai eigen yang dapat diambil dari sebuah tabel dua arah adalah sama dengan minimum [jumlah kolom dikurangi 1, dan jumlah baris dikurangi 1]. Jika kita memilih untuk mengambil (yaitu, menafsirkan) jumlah maksimum dimensi yang dapat diekstrak, maka kita dapat mereproduksi persis semua informasi yang terdapat dalam tabel.

Interpretasi analisis korespondensi

Interpretasi hasil analisis korespondensi terdiri interpretasi hasil numerik dan grafis faktor, yang dihasilkan oleh CA. Yang pertama menyiratkan pemilihan sumbu signifikan dan poin penting.

Pemilihan Axes Signifikan

Berapa banyak sumbu yang signifikan dan harus disimpan untuk analisis lebih lanjut atau penafsiran? Berikut signifikan berarti 'yang diperlukan untuk mempelajari secara rinci' - bukan dalam hal uji signifikansi statistik. Dua jenis sumbu faktor yang dipertimbangkan: sumbu faktor rangka Pertama dan Kedua sumbu rangka faktor. Sumbu faktor urutan pertama dianggap berdasarkan kontribusi untuk varians total (atau inersia), sedangkan sumbu urutan kedua faktor dianggap berdasarkan kontribusi untuk eksentrisitas, yaitu. COS 2

Page 9: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Isu-isu analisis korespondensi nilai eigen untuk min [(I, J) -1] sumbu faktor; nilai eigen peringkat dalam urutan penurunan besarnya.

Faktor rangka sumbu Pertama:

Jumlah (signifikan) sumbu, M, dapat ditentukan oleh salah satu aturan berikut:

1. Jumlah inersia yang dijelaskan oleh sumbu M pertama melebihi batas tertentu, biasanya 80% dari inersia total.

2. Pilih semua sumbu yang melebihi nilai eigen

Faktor rangka sumbu kedua:

Setelah memilih sumbu urutan faktor pertama, urutan kedua sumbu faktor dipilih sebagai berikut:

Misalkan M / pangkat menjadi sumbu faktor yang titik i N (I) dan atau j N (J) ada, sehingga

COS 2 (i) k

atau

COS 2 (j) k

di mana k = 0,25 biasanya.

Dengan demikian, jumlah sumbu yang dipilih untuk interpretasi = M + M /.

Aturan untuk menafsirkan sumbu faktorial dengan poin individu

Bersifat menerangkan poin

Bersifat menerangkan adalah sebuah titik yang mutlak kontribusi (i) (untuk i I) atau (j) (untuk j J) adalah jelas lebih tinggi daripada kontribusi dari titik lain. Poin i saya yang kontribusinya lebih tinggi dari rata-rata dari kontribusi seluruh dianggap sebagai bersifat menerangkan. Poin bersifat membeberkan dapat dipilih sesuai dengan salah satu kriteria berikut:

RKPT (i) RKPT dari semua titik Poin i aku diperintahkan oleh kontribusi mereka terhadap (i ),

Dalam urutan menurun. Kemudian, jumlah (i) p} dipotong sebesar nilai terendah i 0 saya sedemikian rupa sehingga jumlah

dipotong adalah hal Set adalah himpunan titik-titik yg menjelaskan. Prosedur yang sama diikuti untuk J.

Dijelaskan poin

Poin dijelaskan oleh titik variabel i dari N (I) [atau j N (J)],. Yang kontribusinya untuk eksentrisitas adalah lebih besar dari ambang batas tertentu. Kontribusi untuk

Page 10: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

eksentrisitas tersebut adalah sama dengan kuadrat koefisien korelasi (COS 2 Biasanya ambang 0,25 digunakan.

Sebuah j point dapat titik dijelaskan (oleh tanpa titik bersifat menerangkan. Misalkan titik saya memiliki kontribusi mutlak 40% dan korelasi kuadrat dari 0,15 sampai sumbu. Ini berarti bahwa hal tersebut berperan kuat untuk penciptaan sumbu, tapi mungkin berpartisipasi dalam pembangunan sumbu lainnya.

Jadi, dua set koefisien dihitung untuk setiap sumbu. Koefisien ini berlaku untuk baris dan kolom dari matriks data.

Kontribusi absolut, yang menunjukkan proporsi varians (yaitu., Inersia) dijelaskan oleh setiap variabel dalam hubungan satu sama sumbu utama. Proporsi ini dihitung sehubungan dengan set variabel keseluruhan.

Korelasi kuadrat, yang menunjukkan bagian dari varians dari variabel dijelaskan oleh sumbu utama.

Interpretasi dari kontribusi mutlak berlawanan dengan kontribusi relatif (COS 2 Yang terakhir ini menunjukkan sejauh mana setiap kategori baris dan kolom setiap kategori digambarkan oleh sumbu. Kontribusi terhadap inersia, di sisi lain, menunjukkan sejauh mana orientasi geometrik dari sumbu ditentukan oleh kategori variabel tunggal

Kualitas representasi

Kualitas representasi dari titik dalam sistem koordinat, yang didefinisikan oleh nomor yang dipilih dimensi, didefinisikan sebagai rasio dari kuadrat jarak dari titik tersebut dari asal dalam jumlah yang dipilih dimensi, selama jarak kuadrat dari asal di ruang yang didefinisikan dengan jumlah maksimum dimensi. Hal ini juga sama dengan jumlah dari COS 2

Kualitas = COS 2

Sebuah kualitas yang rendah berarti bahwa saat ini jumlah dimensi tidak mewakili baik kolom masing-masing atau titik baris.

Tambahan elemen

Fitur yang paling membedakan dari analisis korespondensi adalah kemungkinan memperkenalkan elemen-elemen tambahan (variabel atau objek) ke dalam grafis faktor. Unsur-unsur tambahan tidak memberikan kontribusi terhadap orientasi sumbu faktorial, namun kontribusi relatif mereka terhadap sumbu faktorial dan koordinat mereka dihitung dengan analisis korespondensi. Sebuah cara sederhana untuk memikirkan titik tersebut adalah bahwa mereka memiliki posisi dalam ruang penuh, tetapi tidak ada massa.

Tambahan poin adalah baris tambahan dan kolom dari sebuah tabel kontingensi, yang memiliki profil yang bermakna dan yang ada di ruang penuh baris dan kolom profil. Mereka dapat diproyeksikan ke dimensi subruang rendah dan posisi mereka relatif terhadap elemen aktif dapat ditentukan.

Page 11: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Kontribusi relatif dari titik tambahan untuk eksentrisitas sumbu (yaitu, COS 2 dapat digunakan untuk menilai apakah titik tambahan terletak pada tingkat lebih besar atau lebih kecil dalam plot daripada keluar dari itu.. Prosedur ini digunakan:

Untuk menekan titik tertentu dalam analisis faktor grafis dan kemudian kembali memperkenalkan sebagai titik tambahan. Hal ini biasanya dilakukan ketika suatu titik tertentu adalah outlier

Untuk mengklasifikasikan elemen, yang deskripsi dalam hal profil, hilang atau tidak lengkap. Dalam hal bahwa unsur-unsur data yang diperkirakan dan kemudian titik-titik ini kembali diperkenalkan sebagai elemen pelengkap ke grafis.

Untuk membandingkan matriks-matriks serupa data untuk dua titik waktu yang berbeda atau untuk dua negara atau wilayah yang berbeda, dll

Outlier poin

Outlier poin wabah analisis korespondensi. Kadang-kadang, profil baris atau kolom yang jarang terjadi di set poin yang memiliki peran kecil dalam penentuan sumbu tatanan yang lebih tinggi. Situasi ini dapat dilihat dengan mudah dengan mempertimbangkan kontribusi titik terhadap sumbu. Ketika suatu titik memiliki kontribusi besar (RKPT), pada koordinat utama besar dengan sumbu utama besar, itu disebut outlier. Poin outlier harus diperlakukan sebagai variabel tambahan.

Grafis

Seperti dalam analisis komponen utama, hasil analisis korespondensi disajikan pada grafik yang mewakili konfigurasi poin dalam pesawat proyeksi, dibentuk oleh sumbu utama pertama diambil dua pada suatu waktu. Ini adalah adat untuk merangkum baris dan kolom koordinat dalam sebuah plot tunggal. Namun, penting untuk diingat bahwa dalam plot seperti itu, seseorang hanya bisa menafsirkan jarak antara titik baris, dan jarak antara titik kolom, tapi tidak jarak antara titik baris dan kolom poin. Namun, adalah sah untuk menafsirkan posisi relatif dari satu titik satu set sehubungan dengan semua titik dari himpunan lainnya

Tampilan gabungan dari baris dan kolom poin menunjukkan hubungan antara suatu titik dari satu set dan semua titik set yang lain, bukan antara poin individu di antara setiap set. Kecuali dalam kasus khusus, adalah sangat berbahaya untuk menafsirkan kedekatan dua titik yang berbeda sesuai dengan set poin.

Beberapa kunci untuk menafsirkan peta faktorial adalah:

Poin dekat asal memiliki distribusi profil dibedakan sebagai konsekuensi dari asal ditempatkan di pusat gravitasi dari kedua awan N (I) dan N (J).

Titik-titik, yang tidak memberikan kontribusi dasarnya inersia setiap sumbu, yang hampir identik dengan profil rata-rata.

Poin awan (atau set) terletak jauh dari asal, tapi dekat satu sama lain memiliki profil serupa

Page 12: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Geometris, profil baris tertentu akan tertarik ke posisi di subruang nya yang sesuai dengan kategori kolom variabel penting dalam bahwa profil baris.

Ketika analisis korespondensi memiliki lebih dari dua dimensi. Kedekatan dengan sepasang sumbu dapat hilang apabila sumbu lainnya (ditambahkan) diplot.

Ini adalah adat untuk merangkum baris dan kolom koordinat dalam sebuah plot tunggal. Namun, penting untuk diingat bahwa dalam plot seperti itu, seseorang hanya bisa menafsirkan jarak antara titik baris, dan jarak antara titik kolom, tapi tidak jarak antara titik baris dan kolom poin. Tidak dapat ditafsirkan. Tampilan gabungan koordinat menunjukkan hubungan antara titik dari satu set dan semua titik dari himpunan lain dan tidak antara titik individual antara setiap set.

Titik A membuat kontribusi yang tinggi untuk inersia dari sumbu utama dalam dua cara-ketika memiliki jarak besar dari barycenter, bahkan jika memiliki massa kecil, atau ketika ia memiliki massa yang besar, tetapi jarak kecil. Mengingat semua hal ini, perlu bahwa hasil numerik dari analisis korespondensi, yaitu. Massa. Kontribusi absolut (RKPT) dan COS kontribusi relatif 2 semua diperhitungkan untuk menafsirkan hasil analisis korespondensi.

Matematika Analisis Korespondensi

Catatan

Tabel kontingensi N (saya

Baris massal jumlah baris = / grand total = i + n / n

Kolom massa jumlah kolom = / grand total = n + j / n

Korespondensi matriks didefinisikan sebagai tabel asli (atau matriks) N dibagi dengan n grand total.

Matriks profil baris juga dapat didefinisikan sebagai baris dari matriks korespondensi P dibagi dengan jumlah masing-masing baris (yaitu massa baris), yang dapat ditulis sebagai:

Matriks baris = D profil r -1 P

di mana D r adalah matriks diagonal massa baris.

Matriks profil kolom terdiri dari kolom-kolom dari matriks korespondensi P dibagi dengan jumlah masing-masing kolom.

Matriks profil kolom = D c - 1 P

Page 13: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

di mana D c adalah matriks diagonal dari massa kolom.

Masalah analisis korespondensi adalah untuk menemukan pendekatan rendah-dimensi dengan matriks data asli yang mewakili kedua baris dan kolom profil

R = D r -1 P

C = D c - 1 P

Dalam subruang k-dimensi rendah, di mana k adalah kurang dari saya atau J. Kedua k-dimensi subruang (satu untuk profil baris dan satu untuk profil kolom) memiliki korespondensi geometris yang memungkinkan kita untuk mewakili kedua baris dan kolom di layar yang sama.

Karena kita ingin grafis mewakili jarak antara baris (atau kolom) profil, kita mengarahkan konfigurasi poin di pusat gravitasi dari kedua set. Centroid dari himpunan titik-titik dalam ruang baris adalah vektor kolom massa. Centroid dari himpunan titik dalam ruang kolom adalah r, vektor massa baris. Ini adalah profil kolom rata-rata.

Untuk melakukan analisis sehubungan dengan pusat gravitasi, P adalah berpusat "simetris" dengan baris dan kolom, yaitu, P -. Rc T sehingga korespondensi ke profil rata-rata kedua set poin. Solusi untuk menemukan representasi dari kedua set poin adalah dekomposisi nilai singular dari matriks yaitu residu standar, J matriks Saya unsur-unsur:

Dekomposisi nilai singular (SVD) didefinisikan sebagai penguraian dari suatu matriks J Sebuah sebagai produk dari tiga matriks

A = U V T (1)

di mana matriks adalah matriks diagonal dari bilangan positif dalam urutan menurun:

1 2 ... ... n 0 (2)

di mana k adalah rank dari A, dan kolom dari matriks U dan V adalah ortonormal, yaitu,

U T U = saya V T V = I (3)

dimana U T adalah transpos dari U, dan V T adalah transpos dari V.

1, 2, ... ..., k disebut nilai-nilai singular.

Kolom U (u 1, u 2, ... ..., u k) adalah vektor tunggal disebut kiri.

Kolom dari V (v 1, v 2, ... ..., v k) disebut vektor yang tepat tunggal.

Page 14: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Pertimbangkan satu set I poin di J-dimensi ruang, di mana koordinat berada di baris dari matriks Y dengan massa, m 1 m 2, ... ..., aku ditugaskan ke poin masing-masing, di mana ruang ini disusun oleh Euclidean tertimbang (dengan bobot dimensi q 1, q 2, ... ..., q J terkait dengan dimensi masing-masing). Dengan kata lain, jarak antara dua titik, misalnya x dan y, adalah sama dengan

[(X - y) T D q (x - y)] ½ (4)

Misalkan D m dan D q menjadi matriks diagonal dari massa titik dan bobot masing-masing dimensi

Misalkan m adalah vektor dari titik messes (kami telah diasumsikan bahwa ):

Saya T m = saya

dimana I adalah vektor yang.

Setiap konfigurasi rendah-dimensi dari titik-titik dapat diturunkan secara langsung dari dekomposisi nilai singular dari matriks:

(5)

mana adalah centroid dari baris Y.

Menerapkan dekomposisi nilai tunggal untuk persamaan di atas, kita menemukan bahwa koordinat titik-titik utama dari baris (proyeksi yaitu profil baris ke sumbu utama) yang terkandung dalam matriks berikut:

F = D ½ m U

Koordinat titik-titik dalam sebuah dimensi optimal terkandung dalam kolom pertama. Sumbu utama ruang ini yang terkandung dalam matriks

A = D q - ½ V

Di sini, kita memiliki dua kasus khusus dari hasil umum di atas, yaitu Row masalah dan Kolom.. Masalah-masalah ini melibatkan pengurangan dimensi dari profil baris dan profil kolom, di mana setiap rangkaian titik memiliki massa terkait dan Chi-square jarak. Kedua masalah ini mengurangi untuk dekomposisi nilai singular dari matriks yang sama residu standar.

Baris masalah

Page 15: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Masalah baris terdiri dari satu set profil saya di deretan r = D -1 P dengan massa r dalam matriks diagonal D r dalam ruang dengan jarak yang ditentukan oleh matriks diagonal D r -1. Centroid dari profil baris dapat diturunkan sebagai berikut

T r D r - 1 P = I T P = c T

dimana c T adalah vektor baris dari kolom massa

Matriks A dalam (Persamaan 5) dapat ditulis sebagai

A = D r 1 / 2 (D r -1 P-IC T) D c -1 / 2 (7)

yang dapat ditulis kembali sebagai

A = D r -1 / 2 (P-yc T) D r -1 / 2 (8)

Kolom masalah

Masalah kolom terdiri dari satu set profil J dalam kolom-kolom P D c-1 dengan massa c dalam diagonal dari D c dalam ruang dengan jarak yang ditentukan oleh matriks diagonal D r - 1.

Dengan mentranspose matriks P D c-1 profil kolom, kita memperoleh c -1 P D T. Centroid dari

profil ini adalah (Yaitu vektor baris dari massa baris).

Matriks dalam Persamaan (5)

(9)

dapat ditulis sebagai

Ini adalah transpos dari matriks diturunkan untuk A, masalah baris.. Ini mengikuti bahwa baik baris dan kolom masalah dapat diselesaikan dengan dekomposisi nilai singular dari matriks yang sama residual standar:

(10)

Unsur-unsur matriks ini J adalah:

(11)

Page 16: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Hal ini dapat dengan mudah dilihat bahwa titik berat dari profil ini adalah:

(Vektor baris massa r)

Matriks dalam Persamaan 5 dengan demikian direduksi menjadi

(12)

Hal ini dapat dengan mudah dilihat bahwa matriks A adalah transpos dari matriks yang diturunkan untuk masalah baris. Hasil ini menyiratkan bahwa kedua masalah baris dan kolom adalah masalah dipecahkan dengan menghitung dekomposisi nilai singular dari matriks yang sama (yaitu matriks dari residu standar).

(13)

elemen yang adalah:

(14)

Maka dari Persamaan (10) bahwa statistik Chi-square dapat didekomposisi menjadi saya komponen dalam bentuk:

Jumlah kuadrat dari elemen A adalah inersia total dari tabel kontingensi.

Jumlah inersia =

yang merupakan statistik chi-kuadrat dibagi oleh n.

Jadi, ada k = min [Aku -1, -1 J] dimensi dalam larutan. Kuadrat dari nilai tunggal yaitu A nilai eigen dari A T atau AA T juga menguraikan inersia total. Ini dilambangkan dengan

dan disebut inertias utama.

Koordinat utama masalah baris adalah:

(15)

Page 17: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

atau dalam notasi skalar:

(16)

Koordinat utama dari kolom diperoleh dari:

atau dalam notasi skalar:

Koordinat standar dari baris-barisnya adalah koordinat utama dibagi dengan nilai masing-masing tunggal, yaitu

X = F -1 = (17)

atau dalam notasi skalar

Koordinat standar dari kolom adalah koordinat utama dibagi dengan nilai masing-masing tunggal:

Y = G -1 = D c -1 / 2 V (18)

yaitu

Setiap inersia utama k adalah didekomposisi menjadi komponen untuk setiap baris i:

atau dalam notasi matriks

(19)

Kontribusi dari baris ke inersia utama k adalah sama dengan:

Page 18: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Untuk baris ke i, komponen inersia untuk semua sumbu k jumlah sampai dengan inersia baris dari baris ke-i:

Sisi kiri dari persamaan di atas adalah identik dengan jumlah kuadrat elemen-elemen pada baris ke-i dari A

atau

(20)

Ada k = min [I -1, -1 J] dimensi dalam larutan. Kuadrat dari nilai-nilai singular dari A, dilambangkan oleh nilai-nilai singular disebut.

Koordinat utama dari baris diperoleh menggunakan [Persamaan (6)], untuk masalah baris.

(21)

atau dalam notasi skalar:

Demikian pula koordinat utama dari kolom diperoleh dengan menggunakan Persamaan (6), untuk masalah kolom.

(22)

yaitu

Koordinat standar dari baris-barisnya adalah koordinat utama dibagi dengan nilai masing-masing tunggal:

(23)

yaitu

Page 19: Analisis Korespondensi Adalah Suatu Ilmu Yang Mempelajari Hubungan Anatara Dua Atau Lebih Peubah Kualitatif

Koordinat standar dari kolom adalah koordinat utama dibagi dengan nilai masing-masing tunggal:

yaitu