Penduga Kekar untuk Ukuran Pemusatan dan Ukuran...
Transcript of Penduga Kekar untuk Ukuran Pemusatan dan Ukuran...
STK335 Analisis Eksplorasi Data Pertemuan 07
Penduga Kekar untuk Ukuran Pemusatan dan Ukuran Penyebaran
Bagus Sartono
Outline
• Pendahuluan
• Ladder Transformation (Tukey, 1977)
• Box-Cox Transformation
Mengapa Butuh Penduga yang Kekar (Robust)
• Terdapat kemungkinan adanya pencilan (outlier) dalam data yang kita miliki
• Sebaran dari data tidak selalu sama dengan yang kita asumsikan
• Perspektif lain: – Tidak semua orang rajin melakukan screening terhadap data
– Proses screening bisa jadi membuang-buang waktu
– Pada data multivariate, tidak mudah mendeteksi pencilan
– Pada pendugaan ukuran penyebaran, membuang pencilan akan menyebabkan penduganya bersifat under-estimate
Apa itu statistik yang kekar?
• Statistik yang tidak sensitif jika ada pelanggaran asumsi atau data-data yang menyebabkan sebarannya sedikit berbeda dengan yang diasumsikan
Ukuran Pemusatan yang Kekar
• Median
• Trimmed Mean (rataan terpangkas, rataan terpancung)
• Winsorized Mean
• M-estimator (penduga M)
Median
siapa tidak kenal median?
Trimmed Mean
• Merupakan rata-rata dari 1 - 2 bagian tengah dari data dengan 0 < < 1
• Artinya sebanyak n data paling besar dan n data paling kecil disisihkan dan tidak ikut dalam perhitunganr rataan.
• Jika nilai αn tidak integer, bagian bilangan integer-nya yang digunakan
M-estimator
• Prinsip dasar: memberikan bobot yang lebih kecil kepada data-data pencilan
Ukuran Penyebaran yang Robust
• Ragam dan simpangan baku adalah ukuran penyebaran yang banyak digunakan. Namun keduanya sensitif terhadap keberadaan pencilan.
• Beberapa ukuran penyebaran yang kekar: – IQR, interquartile range, jarak/jangkauan antar kuartile
– MAD, median absolute deviation
– Gini’s mean difference
IQR (inter quartile range)
• IQR didefinisikan sebagai selisih antara kuartil ketiga dengan kuartil pertama
IQR=Q3 – Q1
• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.34898 IQR.
MAD (median absolute deviation)
• Merupakan ukuran penyebaran kekar yang paling banyak digunakan
• Definisi
MAD = median {|xi – median(x)|}
• Tahapan perhitungan – Hitung median dari data, beri nama median(x)
– Hitung selisih mutlak dari setiap data terhadap median(x)
– Hitung median dari selisih mutlah
• Pada data yang menyebar normal, nilai simpangan baku adalah sebesar 1.4826 MAD
Gini’s mean difference
• Merupakan rata-rata dari setiap selisih antar amatan
• Pada data yang menyebar normal, simpangan baku dapat didekati sebesar G / 2
• Prosedur di SAS yang dapat digunakan untuk menghasilkan nilai penduga kekar: – UNIVARIATE – STDIZE
• Ilustrasi proc univariate data=data robustscale trimmed=0.2
winsorized=0.2; var x; run;
proc stdize data=data method=huber pstat; var x; run;