Eksplorasi Sebaran Data Univariate Menggunakan Histogram...

24
Eksplorasi Sebaran Data Univariate Menggunakan Histogram

Transcript of Eksplorasi Sebaran Data Univariate Menggunakan Histogram...

Eksplorasi Sebaran Data Univariate Menggunakan Histogram

Apa itu Histogram

• Histogram– Histos: sesuatu yang diatur tegak

– Gramma: gambar, tulisan

• Grafik yang menggambarkan distribusi dari data (kontinu) yang berupa deretan batang sama lebar berdampingan yang tingginya menggambarkan banyaknya data untuk berbagai selang nilai

Tampilan Histogram

Sumbu vertikal menunjukkan persentase atau frekuensi dari setiap selang nilai

Sumbu horizontal menampilkan selang-selang nilai variabel yang akan dilihat distribusinya

Antar batang tidak ada celah

Tinggi rendahnya batang menggambarkan besar

kecilnya frekuensi masing-masing selang nilai

Cara Membuat Histogram

• Tahapan Pembuatan

1. Susun selang-selang nilai yang sama lebar, dan meliputi seluruh nilai data yang dimiliki

2. Hitung banyaknya amatan yang tercakup dalam masing-masing selang

3. Pada sumbu mendatar, tandai untuk setiap batas selang nilai

4. Pada setiap selang nilai, gambarkan batang yang tingginya sesuai dengan frekuensinya

Selang Nilai Frekuensi32-33 133-34 134-35 035-36 436-37 737-38 1538-39 1539-40 1440-41 441-42 1242-43 1143-44 744-45 745-46 546-47 747-48 1048-49 1249-50 2250-51 4051-52 4752-53 6053-54 6854-55 4155-56 3156-57 2257-58 1558-59 1159-60 660-61 161-62 262-63 2

proc univariate data=a.a;var x;histogram x / endpoints=31 to 64 by 1 vscale=COUNT;run;

Dapat diganti dengan PERCENT atau PROPORTION

Kegunaan Histogram

• Memberikan informasi ukuran pemusatan dan penyebaran data secara ringkas, meskipun ukuran contohnya sangat besar

• Mengenali pola umum sebaran

• Mengidentifikasi keberadaan data yang ‘kurang wajar’ dan ekstrim

• Memberikan informasi secara cepat banyaknya amatan yang termasuk dalam selang minat tertentu (misal: produk cacat)

Berbagai Pola Sebaran

Berbagai Pola Sebaran

Penentuan Lebar Selang atau Banyaknya Selang

Beberapa usulan penentuan banyaknya selang

• Akar kuadrat dari banyaknya amatan

• Formula yang diusulkan H.A. Sturges

• Formula yang diusulkan Rice University

nk

1log2 nk

3

1

2nk

Beberapa usulan penentuan banyaknya selang

• Formula yang diusulkan DP Doane

• Formula yang diusulkan David Freedman dan P Diaconis

31

5.3

n

sk

31

IQR 2

nk

Perbandingan Sebaran antar Kelompok

libname a 'D:\bagusco\Kuliah S1 --- STK 335 Analisis Eksplorasi Data\STK335 Analisis Eksplorasi Data -- 2015-2016';

data a;set a.a;if _n_ le 100 then group=1; else group=2;

proc univariate data=a;class group;var x;histogram x / midpoints = 32 to 60 by 1 outhistogram=b;run;

Perbandingan Sebaran antar Kelompok

proc univariate data=a;class group;var x;histogram x / endpoints=31 to 64 by 1;run;

Perbandingan Sebaran antar Kelompok

symbol1 i = join ci=red w=2;symbol2 i = join ci=blue w=2;proc gplot data=b;plot _obspct_ * _midpt_ = group;run;

Apa lagi kegunaan histogram?

• Keberhasilan program pengentasan kemiskinan

• Keberhasilan program kampanye marketing

• Apa lagi?

Kegunaan Histogram

Mengevaluasi Model Skoring

16

• Melihat apakah model mampu menghasilkan skor yang dapat membedakan Bad-Good, Defaulf vs Non Default

• Kondisi Ideal: antara Bad dan Good distribusi skor-nya terpisah

• Model 2 lebih baik dibandingkan Model 1

• Latihan

– Data: PUSKESMASAPOTIK

18

BOXPLOT

• informasi ukuran pemusatan dan penyebaran (berupa kuartil)

• informasi bentuk sebaran

• informasi data ekstrim

19

20

Tahapan• hitung statistik lima serangkai (Min, Q1, Q2, Q3, Max)

• hitung batas atasBA = Q3 + 3/2 (Q3-Q1)

• hitung batas bawahBB = Q1 - 3/2 (Q3-Q1)

• deteksi keberadaan pencilan, yaitu data yang nilainyakurang dari BB atau data yang lebih besar dari BA

• gambar kotak, dengan batas Q1 sampai Q3, danletakkan tanda garis di tengah kotak pada posisi Q2

21

• Tarik garis ke kanan, mulai dari Q3 sampai data terbesar di dalam batas atas

• Tarik garis ke kiri, mulai dari Q1 sampai data terkecil di dalam batas bawah

• Tandai pencilan dengan lingkaran kecil

proc sgplot data=a.a;hbox x;run;

23

proc boxplot data=a;plot x*group;insetgroup min Q1 Q2 Q3 max;run;