Analisis Data Meet 3
-
Upload
nurimronsuyuti -
Category
Documents
-
view
239 -
download
2
Embed Size (px)
description
Transcript of Analisis Data Meet 3
-
Ringkasan Numerik
Analisis Data Eksploratif
Novi Hidayat Pusponegoro
-
Data Kepegawaian
Deskripsi nilai data:
Usia, Gaji: Kuantitatif
JK, Jenis Pekerjaan: Kategorik
Nama Usia JK Gaji (Juta Rp) Tipe Pekerjaan
Nasya 39 P 6,210 Managemen
Ilham 27 L 4,735 Tekhnik
Malika 20 P 3,825 Tekhnik
Dedi 48 L 7,760 Managemen
-
Analisis Data Eksploratif Metode statistik yang dapat digunakan untuk memeriksa data sehingga
peneliti akan mengetahui kondisi data
Strategi dasar
Gambar:
Histogram Stemplots Plot data berdasar waktu, dll
Ringkasan numerik :
Mean Median Kuartil Range Standard deviation, dll
Beda histogram
dan Stem-Leaf
diagram?
Histogram untuk data berukuran besar,
Stem-Leaf untuk data berukuran kecil
-
Ringkasan Numerik untuk Data
Kuantitatif Untuk mengetahui kondisi pemusatan dan persebaran nilai data
Pemusatan Mean
Median
Modus
Persebaran Range
Inter-quartile range
Standard deviation
5 ringkasan nilai yang biasanya digunakan adalah: Nilai minimum, Kuartil I (Q1), Median, Kuartil III (Q3), dan nilai maksimum
-
Mean
Merupakan nilai rata-rata hitung dari keseluruhan nilai data yang
dimiliki
Notasi:
Mean populasi :
Mean sampel:
Contoh:
Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik
untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai rata-rata hitungnya?
-
Median
Merupakan nilai yang berada tepat di tengah suatu distribusi nilai data
Sehingga separo dari nilai data berada di bawah nilai median dan
sisanya berada dia atas nilai median
Merupakan persentil kelimapuluh (P50) atau kuartil II (Q2)
Untuk menghitung median
Urutkan pengamatan
Jika jumlah observasi ganjil, maka nilai median adalah nilai yang
berada tepat di tengah
Jika jumlah observasi genap, maka nilai median adalah rata-rata
nilai dua pengamatan yang berada di tengah
-
Contoh Median
Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai mediannya?
-
Mean vs Median Nilai mean dan median sama, jika distribusi nilai data berupa kurva yang
setangkup/simetris
Mean dan median berbeda, jika distribusi nilai data menceng
Menceng kanan : mean lebih besar dari median
Menceng kiri: mean lebih kecil dari median
-
Pendapatan per tahun 6 orang di suatu kota kecil adalah:
$25,000 $27,000 $29,000
$35,000 $37,000 $38,000
Rata-ratanya adalah $31,830 dan mediannya $32,000
Mean vs Median (2)
Bill Gates pindah, dengan pendapatan per tahunnya $40,000,000
Rata-ratanya menjadi $5,741,571 dan mediannya tetap $35,000
Mean ditarik oleh nilai ekstrim, namun tidak dengan
median. Median lebih baik digunakan sebagai ukuran
pusat data jika nilai datanya bervariasi
-
Mean vs Median (3)
Data Median Mean
3, 7, 9, 11, 22 9 10.4
Data Median Mean
3, 7, 9, 11, 22 9 10.4
2, 6, 7, 12, 13, 16, 17, 20 12.5 11.625
Data Median Mean
3, 7, 9, 11, 22 9 10.4
2, 6, 7, 12, 13, 16, 17, 20 12.5 11.625
2, 6, 7, 12, 13, 16, 17, 200 12.5 34.125
-
Is a central measure enough?
Penggunaan ukuran pemusatan saja dapat menyesatkan.
Penjelasan numerik berguna untuk menjelaskan distribusi baik dari ukuran pemusatan dan ukuran penyebaran.
-
Ukuran Penyebaran Data
Jarak /range (R) :
R= Max-Min
Jarak antar kuartil/Inter-quartile range:
IQR=Q3-Q1
Standard Deviation (SD):
rata-rata jarak nilai data terhadap mean
Manakah yang harus digunakan?
-
Standard Deviation
1
N
x i
2
i1
n
Manakah data set yang memiliki SD yang lebih kecil?
a) 50, 40, 60, 30, 70, 25, 75
b) 50, 40, 60, 30, 70, 25, 75, 50, 50, 50
-
Properties dari SD
SD 0. (Kapankah SD = 0)?
Memiliki unit pengukuran yang sama dengan data observasi
Dipengaruhi oleh nilai ekstrim
-
Mean dan SD
Jika ditambahkan nilai 5 pada masing-masing nilai data diatas
Bagaimanakah niali mean dan SD nya?
1
N
x i
2
i1
n
1
Nx i
i1
N
-
Kuartil (Q)
Kuartil membagi data (n) yang berurutan atas 4 bagian yang sama banyak.
------|------|-------|-------
Q1 Q2 Q3
Q1 = kuartil bawah (1/4n )
Q2 = kuartil tengah/median (1/2n)
Q3 = kuartil atas (1/4n )
Untuk data yang tidak dikelompokkan terlebih dahulu dicari mediannya,
kemudian kuartil bawah dan kuartil atas.
Untuk data yang dikelompokkan rumusan kuartil identik dengan rumusan
mencari median.
Jarak antar kuartil atau IQR (Inter Quartile Range) merupak selisih antara Q3
dan Q1.
-
Hinges
Arti; Engsel
Jenis:
Lower-Hinges (H1), merupakan median dari nilai minimum data s.d nilai median (identik
dengan Q1)
Upper-Hinges (H2), merupakan median dari nilai median s.d nilai maksimum data ((identik
dengan Q3)
*Note: Kecuali untuk data berjumlah genap, dimana median akan berada diantara 2 nilai
Contoh:
Berikut adalah nilai pada ujian pertama dalam kuliah pengantar statistik untuk 10 siswa: 80 73 92 85 75 98 93 55 80. Tentukan nilai hinges-nya?
-
Nilai Ekstrim
Outliers adalah titik data merepotkan, dan penting untuk dapat
mengidentifikasi mereka.
Kandidatnya adalah nilai minimum dan maksimum
IQR digunakan sebagai bagian dari aturan praktis untuk
mengidentifikasi outlier.
Nilai data dianggap outlier rendah: setiap nilai Q3 + 1,5IQR
-
Ilustrasi 5 number summaries
Banyak data Nilai Median
Notasi Median pada
nilai ke7
Notasi Hinges pada
nilai ke4
Notasi nilai ekstrim
Nilai Hinges
-
Resume
Memilih Ringkasan nilai yang tepat
Mean dan Standar Deviasi, hanya untuk distribusi cukup
simetris yang tidak memiliki outlier
Median dan IQR biasanya lebih baik daripada mean dan standar
deviasi untuk menggambarkan distribusi miring atau distribusi
dengan outlier.
CATATAN: ringkasan numerik tidak sepenuhnya
menggambarkan bentuk distribusi.
ALWAYS PLOT YOUR DATA FIRST TO GET A FEEL OF
YOUR DATA!